# importando funçõs necessárias
!pip install numdifftools
from IPython.display import clear_output
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
from matplotlib.ticker import MaxNLocator
from matplotlib import cm
import numdifftools as nd
import warnings
clear_output()


pd.set_option('display.float_format', lambda x: '%.8f' % x)
np.set_printoptions(8)
warnings.filterwarnings("ignore")


# funções auxiliares
def plot_function(f, title, ndim, dom = np.linspace(-5, 5, 500), angle = (20, 20)):

  """
    Função que plota gráficos em 2-d ou 3-d.

    Parâmetros
    ----------------------------------------
    f : callable
        Função objetivo (função custo).
    title : str
        Título do gráfico
    ndim : str (2 ou 3)
        Dimensão da função
    dom : list or np.arange or np.linspace, opcional
        Domínio da função desejado 
    angle : tuple,  opcional
        Ângulo para ver o gráfico. Padrão = (20, 20)
    Saída
    ----------------------------------------
    plot
  """
  
  
  plt.style.use('fivethirtyeight')
  
  # 2-d plot: y = f(x)
  if ndim == 2:

    X = dom     
    Y  = f(X)

    fig = plt.figure(figsize=(8,8))
    ax = fig.gca(projection='2d')
    ax.set_title(title)
    ax.set_xlabel('$x$')
    ax.set_ylabel('$f(x)$')
    ax.plot(X, Y)
    ax.view_init(angle[0], angle[1])
    plt.tight_layout()
    plt.show()

    
    #3-d plot: z = f(x, y)
  else:

    x, y = dom, dom 
    X, Y = np.meshgrid(x, y)
    Z = f([X, Y])
    fig = plt.figure(figsize=(8,8))
    ax = fig.gca(projection='3d')
    ax.set_title(title)
    ax.set_xlabel('$x_1$')
    ax.set_ylabel('$x_2$')
    ax.set_zlabel('$f(x_1, x_2)$')
    ax.plot_surface(X, Y, Z, cmap='jet')
    ax.view_init(angle[0], angle[1])
    plt.tight_layout()
    plt.show()


def plot_results(f, xi, yi, method, dim = [np.linspace(-7, 7, 500), np.linspace(-7, 7, 500)]):

    """
    Função que plota os result

    Parâmetros
    ----------------------------------------
    f : callable
        Função objetivo (função custo).
    xi : np.array
        Valores de x em cada iteração do método
    yi : np.array
        Valores de y em cada iteração do método
    method: str
        Método desejado: '1', '2' ou '3'
    dim : np.linspace, opcional
        Valores de x e y para para plotar as curvas de nível 
    Saída
    ----------------------------------------
    plot
  """


    plt.style.use('fivethirtyeight')
  
    if method.lower().strip() == '1': title = 'Descida do gradiente com busca de Armijo' 
    elif method.lower().strip() == '2': title = 'Método de Newton com busca de Armijo'
    else: title = 'Método BFGS com busca de Armijo'

    # z = f(x,y)
    if xi.shape[1] == 2:
      
      x, y = dim[0], dim[1]
      X, Y = np.meshgrid(x, y)
      Z = f([X, Y])
      fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 8))
      plt.suptitle(title, y = 1.05)

      # curvas de nível
      ax1.plot(xi[:,0], xi[:,1], linestyle='--', marker='o', color='black', linewidth = 3)
      ax1.plot(xi[-1,0], xi[-1,1], 'ro', markersize = 11)
      ax1.set(title='Caminho durante a otimização - Curvas de Nível', xlabel='x1', ylabel='x2')
      CS = ax1.contour(X, Y, Z, 15, cmap = 'jet')
      ax1.clabel(CS, fontsize='smaller', fmt='%1.2f')
      
      # valor da função custo em cada iteração
      ax2.plot(yi, linestyle='--', marker='o', color='black')
      ax2.plot(len(yi)-1, yi[-1], 'ro', markersize = 11)
      ax2.xaxis.set_major_locator(MaxNLocator(integer=True))
      ax2.set(title = 'Valor da função custo durante a otimização', xlabel='Iterações', ylabel='Valor da função custo')
      ax2.legend(['Busca de Armijo'])
    
      plt.show()
    
    # y = f(x)
    else:

      x = dim[0]
      y = f(x)
      fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 8))
      plt.suptitle(title, y = 1.05)

      ax1.plot(xi[:,0], xi[:,1], linestyle='--', marker='o', color='black', linewidth = 3)
      ax1.plot(xi[-1,0], xi[-1,1], 'ro', markersize = 11)
      ax1.set(title='Caminho durante a otimização', xlabel='x1', ylabel='x2')
    
      ax2.plot(yi, linestyle='--', marker='o', color='black')
      ax2.plot(len(yi)-1, yi[-1], 'ro', markersize = 11)
      ax2.xaxis.set_major_locator(MaxNLocator(integer=True))
      ax2.set(title = 'Valor da função custo durante a otimização', xlabel='Iterações', ylabel='Valor da função custo')
      ax2.legend(['Busca de Armijo'])
    
      plt.tight_layout()
      plt.show()



def printa_resultados(chute, xi, yi, grad_norm):


    chute = np.round(chute, 8)

    print('\n*************** Resultados ***************')
    print()
    print('Número de iterações: ', len(yi))  
    print()
    print('***** Primeira iteração *****')
    print()
    print(f'f({chute}) = {np.round(yi[0], 8)}')
    print()
    print(f"||∇f({chute})|| = ", np.round(grad_norm[0], 8))
    print()
    print()
    print(f'***** Última iteração: {len(yi)}° *****')
    print()
    print(f'f({np.round(xi[-1], 8)}) = {np.round(yi[-1], 8)}')
    print()
    print(f"||∇f({np.round(xi[-1], 8)})|| = ", np.round(grad_norm[-1], 8))


def minimiza_f(f, metodo, chute, sigma = 0.02, tol = 1e-8):

  """ Função para testar os métodos

  Parâmetros
  ----------------------------------------
    f : callable
      função objetivo no formato estabelecido
    
    metodo : int (1, 2 ou 3)
      1 - Método do Gradiente
      2 - Método de Newton
      3 - Método BFGS
    
    chute : np.array ou list
      array com o ponto inicial (mesma dimensão da função)
    
    sigma : float > 0, opcional
      cte de decréscimo de Armijo. Padrão - 0.02
    
    tol : float > 0, opcional
      tolerância pré-definida. Padrão = 1e-8 

  Saída
  ----------------------------------------
    Resultados obtidos da minimização """


  f_grad = nd.Gradient(f)

  m = {1:'Método de Descida do Gradiente com condição de Armijo', 2:'Método de Newton com condição de Armijo', 3: 'Método Broyden–Fletcher–Goldfarb–Shanno (BFGS) com condição de Armijo'}
  print(f"{m[metodo]} \n\n")

  if metodo == 1:
    xi, yi, grad_norm =  GradientDescent(f, f_grad, chute = chute, sigma = sigma, tol=tol)
    printa_resultados(chute, xi, yi, grad_norm)

  elif metodo == 2:
    f_hessian = nd.Hessian(f)
    xi, yi, grad_norm =  Newton(f, f_grad, f_hessian, chute = chute, sigma = sigma, tol=tol)

    if len(xi) != 0:
      printa_resultados(chute, xi, yi, grad_norm)

  else:
    xi, yi, grad_norm =  BFGS(f, f_grad, chute = chute, sigma = sigma, tol=tol)
    printa_resultados(chute, xi, yi, grad_norm)
  
  if len(chute) == 2 and len(xi) != 0:
    print('\n\n\n\n')
    plot_results(f, xi, yi, dim = [np.linspace(int(np.min(xi[:,0]))-7, int(np.max(xi[:,0]))+7, 1000), np.linspace(int(np.min(xi[:,1]))-7, int(np.max(xi[:,1]))+7, 1000)], method = str(metodo))


!python --version

Python 3.9.7


def Armijo_Search(f, xk, dk, sigma = 0.02, gamma = 0.5):
  
  '''
    Busca linear com Condição de Armijo (1° Condição de Wolfe) - Desigualdade 1, que consiste em fazer um decréscimo da f proporcional ao tamanho do passo 
    
    Parâmetros
    ----------------------------------------
    f : callable
        Função objetivo (função custo).
    xk : array
        Ponto atual.
    dk : array
        Direção de descida (grad_T(f(x_{k})) . d_{k}  < 0).
    sigma : float, opcional
        Valor de sigma entre (0, 1) - constante de decréscimo. Padrão = 0.02
    gamma : float, opcional
        Valor de gamma entre (0, 1). Padrão = 0.5

    Saída
    ----------------------------------------
    lambda : float
        Valor de lambda que satisfaz a condição de Armijo.
    f_x0 : float
        Valor de f no ponto x_{k+1}.
  '''

  # Começa constante lambda = 1

  lambda_ = 1

  # Direção de descida d = grad_{T}(f(x_{k})) . dk < 0  
  desc_direction = np.dot(nd.Gradient(f)(xk), dk)

  f_x0 = f(xk + lambda_ * dk)

  # Calcula a função em um ponto menor que x_k com passo inicial lambda = 1
  # Condição de Armijo para determinar o tamanho do passo, diminuindo a função custo 
  while (f_x0 > f(xk) + sigma * lambda_ * desc_direction):
    
    lambda_ = gamma * lambda_
    f_x0 = f(xk + lambda_ * dk)
  
  # Retorna o passo lambda e o valor da função
  return lambda_, f_x0

GradientDescent(f, f_grad, chute, sigma, tol)


def GradientDescent(f, f_grad, chute, sigma = 0.02, tol=1e-8):

  """Algoritmo de Descida do Gradiente com busca linear com condição de Armijo. Esquema:

      I - Direção de descida: d_k := −∇f(x).
      II - Determinação do passo com busca de Armijo.
      III - Obtém o próximo candidato.

      Parâmetros
      --------------------
      f : callable
          Função custo
      f_grad : callable
          Gradiente da função f
      chute : array
          Valor inicial de x ("chute")
      sigma : float, opcional
          Constante de Decréscimo de Armijo. Padrão = 0.02
      tol : float, opcional
          Tolerância padrão de 1e-8

      Saída
      --------------------
      xk : array
          valores de xk
      yk : array
          valores da função custo em cada xk
      grad_f : array
          valores da norma do gradiente da f em xk """
    
  # Valores iniciais de xk, fk e grad_fk
  xk = chute    
  fk = f(xk)
  grad_fk = f_grad(xk)
  grad_fk_norm = np.linalg.norm(grad_fk)
  max_iter = 500

  # Inicializa o número de iterações e a lista para fazer os plots dos valores de x e y
  num_iter = 0
  x_pontos = [xk]
  y_pontos = [fk]
  grad_f = [grad_fk_norm]
  print(f'Chute inicial: y = {fk}, x = {xk} \n')

  # Calcula nova iteração com busca de Armijo
  while (grad_fk_norm > tol and num_iter < max_iter):
      
    # Determina a direção
    pk = -grad_fk

    if (np.linalg.norm(f(xk)) > 1e16) or (grad_fk_norm > 1e16):
      print("\nErro: Overflow\n")
      break 

    # Faz a busca de Armijo, obtendo o passo lambda e a função custo naquele passo
    lambda_, fk = Armijo_Search(f, xk, pk, sigma)
    
    # calcula x_{k+1}
    xk = xk + lambda_ * pk
    grad_fk = f_grad(xk)
    grad_fk_norm = np.linalg.norm(grad_fk)

    # Itera mais uma vez 
    num_iter += 1
    x_pontos.append(xk)
    y_pontos.append(fk)
    grad_f.append(grad_fk_norm)

  # print results
  if num_iter == max_iter:
    print('\nNúmero de iterações máximo atingido.\n')
  
  return np.array(x_pontos), np.array(y_pontos), np.array(grad_f)


f_esfera = lambda xk: xk[0]**2 + xk[1]**2
f_esfera_grad = nd.Gradient(f_esfera)
f_esfera_hessian = nd.Hessian(f_esfera)
plot_function(f_esfera, title = 'Função Esfera', ndim = 3)


chute = [4, -3]
xi, yi, grad_norm = GradientDescent(f_esfera, f_esfera_grad, chute = chute, tol=1e-10)
df1_1 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||']) 
df1_1

Chute inicial: y = 25, x = [4, -3]


printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  2

***** Primeira iteração *****

f([ 4 -3]) = 25.0

||∇f([ 4 -3])|| =  10.0


***** Última iteração: 2° *****

f([0. 0.]) = 0.0

||∇f([0. 0.])|| =  0.0


plot_results(f_esfera, xi, yi, method = '1')


f_booth = lambda xk: (xk[0] + 2*xk[1] - 7)**2 + (2*xk[0] + xk[1] - 5)**2
f_booth_grad = nd.Gradient(f_booth)
f_booth_hessian = nd.Hessian(f_booth)
plot_function(f_booth, title = 'Função Booth', ndim = 3)


chute = [5, 5]
xi, yi, grad_norm = GradientDescent(f_booth, f_booth_grad, chute = chute, tol=1e-10)
df2_1 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])

Chute inicial: y = 164, x = [5, 5]


printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  61

***** Primeira iteração *****

f([5 5]) = 164.0

||∇f([5 5])|| =  76.4198927


***** Última iteração: 61° *****

f([1. 3.]) = 0.0

||∇f([1. 3.])|| =  0.0


plot_results(f_booth, xi, yi, dim = [np.linspace(-10, 15, 500), np.linspace(-10, 15, 500)], method = '1')


f_tang = lambda xk: (xk[0]**4 - 16*xk[0]**2 + 5*xk[0] + xk[1]**4 - 16*xk[1]**2 + 5*xk[1])/2
f_tang_grad = nd.Gradient(f_tang)
f_tang_hessian = nd.Hessian(f_tang)
plot_function(f_tang, title = 'Função Styblinski-Tang com n = 2', ndim = 3, angle = (40, 50))


chute = [-3, -4]
xi, yi, grad_norm = GradientDescent(f_tang, f_tang_grad, chute = chute, tol=1e-7)
df3_1 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||']) 
df3_1

Chute inicial: y = -49.0, x = [-3, -4]


printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  17

***** Primeira iteração *****

f([-3 -4]) = -49.0

||∇f([-3 -4])|| =  61.59951299


***** Última iteração: 17° *****

f([-2.90353403 -2.90353403]) = -78.33233141

||∇f([-2.90353403 -2.90353403])|| =  8e-08


plot_results(f_tang, xi, yi, dim = [np.linspace(-5, 5, 500), np.linspace(-5, 5, 500)], method = '1')


f_rosenbrock = lambda xk: (xk[1] - xk[0]**2)**2 + (1 - xk[0])**2
f_rosenbrock_grad = nd.Gradient(f_rosenbrock)
plot_function(f_rosenbrock, title = 'Função Rosenbrock $n=2$', ndim = 3, dom = np.linspace(-2, 2, 500), angle = (30, 40))


chute = [-5, -25]
xi, yi, grad_norm = GradientDescent(f_rosenbrock, f_rosenbrock_grad, chute = chute, tol=1e-10)
df4_1 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

Chute inicial: y = 2536, x = [-5, -25] 


*************** Resultados ***************

Número de iterações:  335

***** Primeira iteração *****

f([ -5 -25]) = 2536.0

||∇f([ -5 -25])|| =  1016.9287094


***** Última iteração: 335° *****

f([1. 1.]) = 0.0

||∇f([1. 1.])|| =  0.0


plot_results(f_rosenbrock, xi, yi, dim = [np.linspace(-13, 4, 1000), np.linspace(-200, 250, 1000)], method = '1')


f_cormick = lambda xk: np.sin(xk[0] + xk[1]) + (xk[0] - xk[1])**2 - 1.5*xk[0] + 2.5*xk[1] + 1
f_cormick_grad = nd.Gradient(f_cormick)
plot_function(f_cormick, title = 'Função McCormick', ndim = 3, dom = np.linspace(-4, 4, 500), angle = (30, 50))


chute = [-7, 6]
xi, yi, grad_norm = GradientDescent(f_cormick, f_cormick_grad, chute = [-7, 6], tol=1e-10)  
df5_1 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

Chute inicial: y = 194.6585290151921, x = [-7, 6] 


*************** Resultados ***************

Número de iterações:  45

***** Primeira iteração *****

f([-7  6]) = 194.65852902

||∇f([-7  6])|| =  39.62530073


***** Última iteração: 45° *****

f([-0.54719755 -1.54719755]) = -1.91322295

||∇f([-0.54719755 -1.54719755])|| =  0.0


plot_results(f_cormick, xi, yi, dim = [np.linspace(-45, 8, 1000), np.linspace(-45, 8, 1000)], method = '1')

Newton(f, f_grad, f_hessian, chute, sigma, tol)


def Newton(f, f_grad, f_hessian, chute, sigma = 0.02, tol=1e-8):

  """Algoritmo de Descida do Gradiente com busca de Armijo. Esquema:

        I - Direção de descida: d_k := −∇f(x).
        II - Determinação do passo com busca de Armijo.
        III - Obtém o próximo candidato.

        Parâmetros
        --------------------
        f : callable
            Função custo
        f_grad : callable
            Gradiente da função f
        f_hessian : callable
            Hessiana da função f 
        chute : array
            Valor inicial de x ("chute")
        sigma : float, opcional
            Constante de Decréscimo de Armijo. Padrão = 0.02
        tol : float, opcional
            Tolerância desejada. Padrão = 1e-8
        
        Saída
        --------------------
        xk : array
            valores de xk
        yk : array
            valores da função custo e cada xk
        grad_f : array
            valores da norma do gradiente da f em xk"""

  # Valores iniciais de xk, fk, grad_fk e max_iter
  xk = chute    
  fk = f(xk)
  grad_fk = f_grad(xk)
  grad_fk_norm = np.linalg.norm(grad_fk)
  max_iter = 500

  # Inicializa o número de iterações e a lista para fazer os plots dos valores de x e y
  num_iter = 0
  x_pontos = [xk]
  y_pontos = [fk]
  grad_f = [grad_fk_norm]

  f_hessian_xk = f_hessian(xk)  
  
  # Calcula nova iteração com busca de Armijo
  while (grad_fk_norm > tol and num_iter < max_iter):
        
    f_hessian_xk = f_hessian(xk)

    if (np.linalg.norm(f(xk)) > 1e16) or (grad_fk_norm > 1e16)  or  (np.linalg.norm(f_hessian_xk) > 1e16):
      print("\nErro: Overflow\n")
      break 
    
    # Não invertível
    if abs(np.linalg.det(f_hessian_xk)) <= 1e-3:
      break 

    # Determina a direção resolvendo o sistema:  \nabla^{2} f(x_{k}) . p_{k} = - \nabla f(x_{k})
    pk = -np.linalg.solve(f_hessian_xk, grad_fk)
    lambda_ = 1 

    # Se estiver longe do ponto, a matriz Hessiana pode ser não definida positiva.
    # Se isso acontecer, seguir pelo Método do Gradiente:
    if not (np.dot(pk, grad_fk) < (-0.001 * np.linalg.norm(f_grad(xk)) * np.linalg.norm(pk))):
      
      # Descida do gradiente
      pk = -f_grad(xk)
      
      # Faz a busca de Armijo, obtendo o passo lambda e a função custo naquele passo
      lambda_, fk = Armijo_Search(f, xk, pk, sigma=sigma)

    else:
      lambda_, fk = Armijo_Search(f, xk, pk, sigma=sigma)
    
    # calcula x_{k+1}
    xk = xk + lambda_ * pk
    grad_fk = f_grad(xk)
    grad_fk_norm = np.linalg.norm(grad_fk)

    # Itera mais uma vez 
    num_iter += 1
    x_pontos.append(xk)
    y_pontos.append(f(xk))
    grad_f.append(grad_fk_norm)

    # número máximo de iterações
    if num_iter == max_iter:
      print('\nNúmero máximo de iterações atingido.\n')
      break

  if abs(np.linalg.det(f_hessian_xk)) <= 1e-3:
    print("\nMatriz Hessiana não invertível. Mudar o ponto inicial.\n") 
    return [], [], []
  
  elif np.min(np.linalg.eigvals(f_hessian_xk)) <= 1e-3:
    print("\nMatriz Hessiana não PD. Mudar o ponto inicial. Ponto de sela encontrado.\n")
  
  
  return np.array(x_pontos), np.array(y_pontos), np.array(grad_f)


f_esfera = lambda xk: xk[0]**2 + xk[1]**2
f_esfera_grad = nd.Gradient(f_esfera)
f_esfera_hessian = nd.Hessian(f_esfera)
plot_function(f_esfera, title = 'Função Esfera', ndim = 3)


chute = [4, -3]
xi, yi, grad_norm =  Newton(f_esfera, f_esfera_grad, f_esfera_hessian, chute = chute, tol=1e-10)
df1_2 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||']) 
df1_2


printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  2

***** Primeira iteração *****

f([ 4 -3]) = 25.0

||∇f([ 4 -3])|| =  10.0


***** Última iteração: 2° *****

f([-0.  0.]) = 0.0

||∇f([-0.  0.])|| =  0.0


plot_results(f_esfera, xi, yi, method = '2')


f_booth = lambda xk: (xk[0] + 2*xk[1] - 7)**2 + (2*xk[0] + xk[1] - 5)**2
f_booth_grad = nd.Gradient(f_booth)
f_booth_hessian = nd.Hessian(f_booth)
plot_function(f_booth, title = 'Função Booth', ndim = 3)


chute = [5, 5]
xi, yi, grad_norm = Newton(f_booth, f_booth_grad, f_booth_hessian, chute = chute, tol=1e-10)
df2_2 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||']) 
df2_2


printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  2

***** Primeira iteração *****

f([5 5]) = 164.0

||∇f([5 5])|| =  76.4198927


***** Última iteração: 2° *****

f([1. 3.]) = 0.0

||∇f([1. 3.])|| =  0.0


plot_results(f_booth, xi, yi, dim = [np.linspace(-10, 15, 500), np.linspace(-10, 15, 500)], method = '2')


f_tang = lambda xk: (xk[0]**4 - 16*xk[0]**2 + 5*xk[0] + xk[1]**4 - 16*xk[1]**2 + 5*xk[1])/2
f_tang_grad = nd.Gradient(f_tang)
f_tang_hessian = nd.Hessian(f_tang)
plot_function(f_tang, title = 'Função Styblinski-Tang com n = 2', ndim = 3, angle = (40, 50))


chute = [0, 2]
xi, yi, grad_norm = Newton(f_tang, f_tang_grad, f_tang_hessian, chute = chute, tol=1e-7)
df3_2 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

Matriz Hessiana não PD. Mudar o ponto inicial. Ponto de sela encontrado.


*************** Resultados ***************

Número de iterações:  5

***** Primeira iteração *****

f([0 2]) = -19.0

||∇f([0 2])|| =  13.72953022


***** Última iteração: 5° *****

f([0.15673126 2.74680277]) = -24.8338343

||∇f([0.15673126 2.74680277])|| =  0.0


plot_results(f_tang, xi, yi, dim = [np.linspace(-5, 5, 500), np.linspace(-5, 5, 500)], method = '2')


chute = [-3, -4]
xi, yi, grad_norm = Newton(f_tang, f_tang_grad, f_tang_hessian, chute = [-3, -4], tol=1e-7)
df3_2 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||']) 
printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  6

***** Primeira iteração *****

f([-3 -4]) = -49.0

||∇f([-3 -4])|| =  61.59951299


***** Última iteração: 6° *****

f([-2.90353403 -2.90353403]) = -78.33233141

||∇f([-2.90353403 -2.90353403])|| =  0.0


plot_results(f_tang, xi, yi, dim = [np.linspace(-5, 5, 500), np.linspace(-5, 5, 500)], method = '2')


f_rosenbrock = lambda xk: (xk[1] - xk[0]**2)**2 + (1 - xk[0])**2
f_rosenbrock_grad = nd.Gradient(f_rosenbrock)
f_rosenbrock_hessian = nd.Hessian(f_rosenbrock)
plot_function(f_rosenbrock, title = 'Função Rosenbrock $n=2$', ndim = 3, dom = np.linspace(-2, 2, 500), angle = (30, 40))


chute = [-5, -25]
xi, yi, grad_norm = Newton(f_rosenbrock, f_rosenbrock_grad, f_rosenbrock_hessian, chute = chute, tol=1e-10) 
df4_2 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  13

***** Primeira iteração *****

f([ -5 -25]) = 2536.0

||∇f([ -5 -25])|| =  1016.9287094


***** Última iteração: 13° *****

f([1. 1.]) = 0.0

||∇f([1. 1.])|| =  0.0


plot_results(f_rosenbrock, xi, yi, dim = [np.linspace(-13, 4, 1000), np.linspace(-200, 250, 1000)], method = '2')


f_cormick = lambda xk: np.sin(xk[0] + xk[1]) + (xk[0] - xk[1])**2 - 1.5*xk[0] + 2.5*xk[1] + 1
f_cormick_grad = nd.Gradient(f_cormick)
f_cormick_hessian = nd.Hessian(f_cormick)
plot_function(f_cormick, title = 'Função McCormick', ndim = 3, dom = np.linspace(-4, 4, 500), angle = (30, 50))


chute = [-7, 6]
xi, yi, grad_norm = Newton(f_cormick, f_cormick_grad, f_cormick_hessian, chute = chute, tol=1e-10)  
df5_2 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  5

***** Primeira iteração *****

f([-7  6]) = 194.65852902

||∇f([-7  6])|| =  39.62530073


***** Última iteração: 5° *****

f([-0.54719755 -1.54719755]) = -1.91322295

||∇f([-0.54719755 -1.54719755])|| =  0.0


plot_results(f_cormick, xi, yi, dim = [np.linspace(-45, 8, 1000), np.linspace(-45, 8, 1000)], method = '2')


def f_colville(xk):

  """
    Função Colville - 4 dimensões: https://www.sfu.ca/~ssurjano/colville.html

     Parâmetros
    --------------------
    xk : np.array or list
        array de pontos xk
    
    Saída
    --------------------
    y : array
        valores da função custo
  """

  x1 = xk[0]
  x2 = xk[1]
  x3 = xk[2]
  x4 = xk[3]

  term1 = 100 * (x1**2-x2)**2;
  term2 = (x1-1)**2;
  term3 = (x3-1)**2;
  term4 = 90 * (x3**2-x4)**2;
  term5 = 10.1 * ((x2-1)**2 + (x4-1)**2);
  term6 = 19.8*(x2-1)*(x4-1);

  y = term1 + term2 + term3 + term4 + term5 + term6

  return y


f_colville_grad = nd.Gradient(f_colville)
f_colville_hessian = nd.Hessian(f_colville)


chute = [3, 1, 5, 4]
xi, yi, grad_norm = Newton(f_colville, f_colville_grad, f_colville_hessian, chute = chute, tol=1e-8)  
df6_2 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'x3':xi[:,2], 'x4':xi[:,3], 'f(x1,x2,x3,x4)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'x3', 'x4', 'f(x1,x2,x3,x4)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

*************** Resultados ***************

Número de iterações:  15

***** Primeira iteração *****

f([3 1 5 4]) = 46200.9

||∇f([3 1 5 4])|| =  39215.92871169


***** Última iteração: 15° *****

f([1. 1. 1. 1.]) = 0.0

||∇f([1. 1. 1. 1.])|| =  0.0


df6_2

BFGS(f, f_grad, chute, sigma, tol)


def BFGS(f, f_grad, chute, sigma = 0.02, tol=1e-8):

  """ Algoritmo Broyden–Fletcher–Goldfarb–Shanno (BFGS) com busca de Armijo.

    Parâmetros
    --------------------
    f : callable
        Função custo
    f_grad : callable
        Gradiente da função f
    chute : array
        Valor inicial de x ("chute")
    sigma : float, opcional 
        Constante de decréscimo de Armijo. Padrão = 0.02
    tol : float, opcional
        Tolerância desejada. Padrão = 1e-8
        
    Saída
    --------------------
    xk : array
        valores de xk
    yk : array
        valores da função custo em cada xk  
    grad_f : array
      valores da norma do gradiente da f em xk"""


  # dimensão do problema e matriz B_{k = 0} = Id(n) (identidade de ordem n)
  n = len(chute)
  Bk =  np.eye(len(chute))
  max_iter = 500

  # Valores iniciais de x_{k+1}, x_{k}, f_{x_{k}}, grad_{f(x_{k})} e norma do gradiente
  xk = chute    
  xprev = chute
  fk = f(xk)
  grad_fk = f_grad(xk)
  grad_fk_norm = np.linalg.norm(grad_fk)

  # Inicializa o número de iterações e a lista para fazer os plots dos valores de x e y
  num_iter = 0
  x_pontos = [xk]
  y_pontos = [fk]
  grad_f = [grad_fk_norm]

  print(f'Chute inicial: y = {fk}, x = {xk} \n')

  while (grad_fk_norm > tol and num_iter < max_iter):
    
    if (np.linalg.norm(f(xk)) > 1e16) or (grad_fk_norm > 1e16):
      print("\nErro: Overflow\n")
      break 

    # direção (método de Newton)
    dk = - Bk @ f_grad(xprev) 

    # performa busca de Armijo com x_{k} (x prévio)
    lambda_, _ = Armijo_Search(f, xprev, dk, sigma)
    
    # direção e valor de x_{k+1} = x_{k} + \lambda * d_{k} = x_{k} + s_{k} 
    sk = lambda_ * dk
    xk = xk + lambda_ * dk

    # y_{k} é a diferença do gradiente da f em x_{k+1} com o gradiente da f em x_{k} 
    yk = np.subtract(f_grad(xk), f_grad(xprev)) 
    
    # arruma os tamanhos 
    yk = np.array([yk]).reshape(-1, 1)
    sk = np.array([sk]).reshape(-1, 1)

    # denominador do BFGS update
    denominador = np.dot(sk.T, yk)[0]  # escalar
    
    # numerador da segunda parcela do BFGS update
    num_1 = ((denominador + (yk.T @ (Bk @ yk))) * (sk @ sk.T))/(denominador ** 2) 

    # numerador da terceira parcela do BFGS update
    num_2 = ((Bk @ (yk @ sk.T)) + (sk @ (yk.T @ Bk)))/denominador

    # BFGS update
    Bk = Bk + np.subtract(num_1, num_2)

    grad_fk = f_grad(xk)
    grad_fk_norm = np.linalg.norm(grad_fk)

    x_pontos.append(xk)
    y_pontos.append(np.round(f(xk), 10))
    grad_f.append(grad_fk_norm)

    xprev = xk
    num_iter += 1

  # número máximo de iterações
  if num_iter == max_iter:
    print('\nNúmero máximo de iterações atingido.\n')

  return np.array(x_pontos), np.array(y_pontos), np.array(grad_f)


f_tang = lambda xk: (xk[0]**4 - 16*xk[0]**2 + 5*xk[0] + xk[1]**4 - 16*xk[1]**2 + 5*xk[1])/2
f_tang_grad = nd.Gradient(f_tang)
f_tang_hessian = nd.Hessian(f_tang)
plot_function(f_tang, title = 'Função Styblinski-Tang com n = 2', ndim = 3, angle = (40, 50))


chute = [-3, -2]
xi, yi, grad_norm = BFGS(f_tang, f_tang_grad, chute = chute, tol=1e-7)
df1_3 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

Chute inicial: y = -68.0, x = [-3, -2] 


*************** Resultados ***************

Número de iterações:  11

***** Primeira iteração *****

f([-3 -2]) = -68.0

||∇f([-3 -2])|| =  18.82817038


***** Última iteração: 11° *****

f([-2.90353403 -2.90353403]) = -78.33233141

||∇f([-2.90353403 -2.90353403])|| =  6e-08


plot_results(f_tang, xi, yi, dim = [np.linspace(-5, 5, 500), np.linspace(-5, 5, 500)], method = '3')


f_rosenbrock = lambda xk: (xk[1] - xk[0]**2)**2 + (1 - xk[0])**2
f_rosenbrock_grad = nd.Gradient(f_rosenbrock)
f_rosenbrock_hessian = nd.Hessian(f_rosenbrock)
plot_function(f_rosenbrock, title = 'Função Rosenbrock $n=2$', ndim = 3, dom = np.linspace(-2, 2, 500), angle = (30, 40))


chute = [-5, -25]
xi, yi, grad_norm = BFGS(f_rosenbrock, f_rosenbrock_grad, chute = [-5, -25], tol=1e-10)
df2_3 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

Chute inicial: y = 2536, x = [-5, -25] 


*************** Resultados ***************

Número de iterações:  17

***** Primeira iteração *****

f([ -5 -25]) = 2536.0

||∇f([ -5 -25])|| =  1016.9287094


***** Última iteração: 17° *****

f([1. 1.]) = 0.0

||∇f([1. 1.])|| =  0.0


plot_results(f_rosenbrock, xi, yi, dim = [np.linspace(-13, 15, 1000), np.linspace(-200, 250, 1000)], method = '3')


f_cormick = lambda xk: np.sin(xk[0] + xk[1]) + (xk[0] - xk[1])**2 - 1.5*xk[0] + 2.5*xk[1] + 1
f_cormick_grad = nd.Gradient(f_cormick)
f_cormick_hessian = nd.Hessian(f_cormick)
plot_function(f_cormick, title = 'Função McCormick', ndim = 3, dom = np.linspace(-4, 4, 500), angle = (30, 50))


chute = [-7, 6]
xi, yi, grad_norm = BFGS(f_cormick, f_cormick_grad, chute = chute, tol=1e-10)  
df3_3 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'f(x1,x2)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'f(x1,x2)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

Chute inicial: y = 194.6585290151921, x = [-7, 6] 


*************** Resultados ***************

Número de iterações:  9

***** Primeira iteração *****

f([-7  6]) = 194.65852902

||∇f([-7  6])|| =  39.62530073


***** Última iteração: 9° *****

f([-0.54719755 -1.54719755]) = -1.91322296

||∇f([-0.54719755 -1.54719755])|| =  0.0


plot_results(f_cormick, xi, yi, dim = [np.linspace(-45, 8, 1000), np.linspace(-45, 8, 1000)], method = '3')


f_colville_grad = nd.Gradient(f_colville)


chute = [3, 1, 5, 4]
xi, yi, grad_norm = BFGS(f_colville, f_colville_grad, chute = chute, tol=1e-8)  
df4_3 = pd.DataFrame(data = {'x1':xi[:,0], 'x2':xi[:,1], 'x3':xi[:,2], 'x4':xi[:,3], 'f(x1,x2,x3,x4)':yi, '||∇f||':grad_norm}, index = pd.Index([i for i in range(len(xi))]), columns = ['x1', 'x2', 'x3', 'x4', 'f(x1,x2,x3,x4)', '||∇f||'])
printa_resultados(chute, xi, yi, grad_norm)

Chute inicial: y = 46200.9, x = [3, 1, 5, 4] 


*************** Resultados ***************

Número de iterações:  77

***** Primeira iteração *****

f([3 1 5 4]) = 46200.9

||∇f([3 1 5 4])|| =  39215.92871169


***** Última iteração: 77° *****

f([1. 1. 1. 1.]) = 0.0

||∇f([1. 1. 1. 1.])|| =  0.0


df4_3

f = lambda x: x[0]**2 + x[1]**2 + 2*x[0]*x[1] + x[2]

f = lambda x: (x[0] + 2*x[1] - 7)**2 + (2*x[0] + x[1] - 5)**2 + np.exp(-2*x[1])
                            minimiza_f(f, metodo = 1, chute = [8, 15], sigma = 0.02, tol = 1e-10)


f = lambda x: (x[0] + 2*x[1] - 7)**2 + (2*x[0] + x[1] - 5)**2 + np.exp(-2*x[1])

metodo = 2

chute = [8, 15]

sigma = 0.5

tol = 1e-10

minimiza_f(f = f, metodo = metodo, chute = chute, sigma = sigma, tol = tol)

Método de Newton com condição de Armijo 


*************** Resultados ***************

Número de iterações:  24

***** Primeira iteração *****

f([ 8 15]) = 1637.0

||∇f([ 8 15])|| =  241.93387526


***** Última iteração: 24° *****

f([0.99890135 3.00137331]) = 0.00247535

||∇f([0.99890135 3.00137331])|| =  0.0

	x1	x2	f(x1,x2)	\|\|∇f\|\|
0	4.00000000	-3.00000000	25.00000000	10.00000000
1	0.00000000	0.00000000	0.00000000	0.00000000

	x1	x2	f(x1,x2)	\|\|∇f\|\|
0	-3.00000000	-4.00000000	-49.00000000	61.59951299
1	-2.89062500	-2.07812500	-69.58226913	17.80632896
2	-2.91834593	-3.19067526	-76.76195048	11.42561239
3	-2.90221876	-2.83398927	-78.25061301	2.32193091
4	-2.90363926	-2.90653571	-78.33217526	0.10402795
5	-2.90352553	-2.90328682	-78.33233035	0.00855307
6	-2.90353471	-2.90355395	-78.33233140	0.00068935
7	-2.90353397	-2.90353242	-78.33233141	0.00005565
8	-2.90353403	-2.90353416	-78.33233141	0.00000449
9	-2.90353403	-2.90353402	-78.33233141	0.00000036
10	-2.90353403	-2.90353404	-78.33233141	0.00000042
11	-2.90353403	-2.90353399	-78.33233141	0.00000140
12	-2.90353403	-2.90353403	-78.33233141	0.00000011
13	-2.90353403	-2.90353402	-78.33233141	0.00000013
14	-2.90353403	-2.90353403	-78.33233141	0.00000015
15	-2.90353403	-2.90353402	-78.33233141	0.00000018
16	-2.90353403	-2.90353403	-78.33233141	0.00000008

	x1	x2	f(x1,x2)	\|\|∇f\|\|
0	4.00000000	-3.00000000	25.00000000	10.00000000
1	-0.00000000	0.00000000	0.00000000	0.00000000

	x1	x2	f(x1,x2)	\|\|∇f\|\|
0	5.00000000	5.00000000	164.00000000	76.41989270
1	1.00000000	3.00000000	0.00000000	0.00000000

	x1	x2	x3	x4	f(x1,x2,x3,x4)	\|\|∇f\|\|
0	3.00000000	1.00000000	5.00000000	4.00000000	46200.90000000	39215.92871169
1	2.29966013	2.93255387	4.49767692	17.87089851	4627.45416071	4399.11465877
2	1.66303161	1.70962687	3.09191394	6.84928366	1210.45916989	3123.64881103
3	1.02829368	0.25151366	2.56382101	5.83413244	286.58824030	767.13016041
4	0.82740311	0.48596161	1.92643823	3.12318333	62.53754579	421.28883716
5	0.54946097	0.15520747	1.64994513	2.56335455	10.79500134	102.82494463
6	0.50791572	0.24068237	1.41680691	1.93193006	1.54159644	40.57739563
7	0.58543341	0.33528193	1.30739964	1.69270586	0.48876832	8.82368418
8	0.79961196	0.59452106	1.19068036	1.40342568	0.36160394	18.08480041
9	0.83862492	0.70294929	1.13752332	1.29113716	0.08062932	1.56255741
10	0.99250921	0.96141233	1.02560337	1.03918358	0.07177742	11.74202871
11	0.99147987	0.98296381	1.00919960	1.01806179	0.00030743	0.17871781
12	0.99982048	0.99957110	1.00026150	1.00044089	0.00000127	0.04548513
13	0.99999827	0.99999652	1.00000180	1.00000352	0.00000000	0.00003561
14	1.00000000	1.00000000	1.00000000	1.00000000	0.00000000	0.00000000

Métodos Clássicos de Descida com Busca de Armijo¶

Otimização Não Linear¶

Funções Auxiliares¶

Introdução¶

O Problema da Minimização¶

Algoritmos¶

Algoritmo de Busca Linear com Condição de Armijo¶

Algoritmo¶

Método do Gradiente com Busca de Armijo¶

Algoritmo¶

Testes¶

Exemplo 1 - Função Esfera¶

Exemplo 2 - Função Booth¶

Exemplo 3 - Função Styblinski-Tang com n = 2¶

Exemplo 4 - Função Rosenbrock com n = 2¶

Exemplo 5 - Função McCormick¶

Método de Newton com Busca de Armijo¶

Algoritmo¶

Testes¶

Exemplo 1 - Função Esfera¶

Exemplo 2 - Função Booth¶

Exemplo 3 - Função Styblinski-Tang com n = 2¶

Exemplo 4 - Função Rosenbrock com n = 2¶

Exemplo 5 - Função McCormick¶

Exemplo 6 - Função Colville¶

Método Broyden–Fletcher–Goldfarb–Shanno (BFGS) com condição de Armijo¶

Algoritmo¶

Testes¶

Exemplo 1 - Função Styblinski-Tang com n = 2¶

Exemplo 2 - Função Rosenbrock com n = 2¶

Exemplo 3 - Função McCormick¶

Exemplo 4 - Função Colville¶

Área de Testes¶

EXEMPLO¶

Referências¶

	x1	x2	x3	x4	f(x1,x2,x3,x4)	\|\|∇f\|\|
0	3.00000000	1.00000000	5.00000000	4.00000000	46200.90000000	39215.92871169
1	0.65527344	1.37612305	-4.23046875	4.90805664	15485.72247885	19923.11661312
2	-2.34055222	1.70232693	-3.63569501	7.61445932	4823.45883370	8221.27443435
3	-1.23940941	3.33747143	-3.66775263	11.54402139	2345.12224793	2751.91227485
4	-0.40102996	0.00289211	-3.86812964	13.23333383	1577.26670286	2426.65070686
...	...	...	...	...	...	...
72	0.99997852	0.99995828	1.00001805	1.00003609	0.00000000	0.00056475
73	0.99999924	0.99999858	1.00000052	1.00000093	0.00000000	0.00006695
74	1.00000000	1.00000001	0.99999999	0.99999998	0.00000000	0.00000135
75	1.00000000	1.00000000	1.00000000	1.00000000	0.00000000	0.00000001
76	1.00000000	1.00000000	1.00000000	1.00000000	0.00000000	0.00000000