La técnica de los "multiplicadores de Lagrange" es una forma de resolver problemas de optimización con restricciones. ¡Súper útil!

Qué vamos a construir:

  • La técnica de los multiplicadores de Lagrange te permite encontrar el máximo o el mínimo de una función multivariable, f(x,y,)\blueE{f(x, y, \dots)}, cuando hay alguna restricción en los valores de entrada que puedes usar.
  • Esta técnica solo se aplica a restricciones que se ven así:
    g(x,y,)=c \redE{g(x, y, \dots) = c}
    Aquí, g\redE{g} es otra función multivariable con el mismo espacio de entrada que f\blueE{f} y c\redE{c} es alguna constante.
    Por ejemplo, si el espacio de entrada es bidimensional, la gráfica de f\blueE{f} con la línea que representa g(x,y)=c\redE{g(x, y) = c} projectada sobre ella podría verse así:
    Optimización restringida
    El objetivo es encontrar el punto más alto en esa línea roja.
  • La idea central es buscar puntos en donde las curvas de nivel de f\blueE{f} y g\redE{g} sean tangentes entre sí.
  • Esto es lo mismo que encontrar puntos en donde los vectores de los gradientes de f\blueE{f} y g\redE{g} sean paralelos entre sí.
  • Todo el proceso puede reducirse a hacer el gradiente de una cierta función, llamada el lagrangiano, igual al vector cero.
    • Paso 1: introduce una nueva variable λ\greenE{\lambda} y define una nueva función L\mathcal{L} como sigue:
      L(x,y,,λ)=f(x,y,)λ(g(x,y,)c) \mathcal{L}(x, y, \dots, \greenE{\lambda}) = \blueE{f(x, y, \dots)} - \greenE{\lambda} (\redE{g(x, y, \dots)-c})
      Esta función L\mathcal{L} se llama el "lagrangiano", y a la nueva variable λ\greenE{\lambda} se le conoce como un "multiplicador de Lagrange".
    • Paso 2: haz el gradiente de L\mathcal{L} igual al vector cero.
      L(x,y,,λ)=0Vector cero \nabla \mathcal{L}(x, y, \dots, \greenE{\lambda}) = \textbf{0} \quad \leftarrow \small{\gray{\text{Vector cero}}}
      En otras palabras, encuentra los puntos críticos de L\mathcal{L}.
    • Paso 3: considera cada solución, las cuales se ven algo como (x0,y0,,λ0)(x_0, y_0, \dots, \greenE{\lambda}_0). Sustituye cada una en ff. O más bien, primero quita la componente λ0\greenE{\lambda}_0, después sustitúyela en ff, ya que λ\greenE{\lambda} no es una entrada de ff. La que dé el valor más grade (o más chico) es el punto máximo (o mínimo) que estás buscando.

Un ejemplo para motivarte

Supón que quieres maximizar esta función
f(x,y)=2x+y \blueE{f(x, y) = 2x + y}
Gráfica de la función f(x,y)=2x+yf(x, y) = 2x+y
Gráfica de la función f(x,y)=2x+yf(x, y) = 2x+y
Pero también digamos que limitaste los valores de entrada (x,y)(x, y) que satisfacen la siguiente ecuación:
x2+y2=1 \redE{x^2 + y^2 = 1}
El círculo unitario
Todos los puntos (x,y)(x, y) que satisfacen x2+y2=1\redE{x^2 + y^2 = 1} están en el círculo unitario.
En otras palabras, ¿para qué punto (x,y)(x, y) sobre el crculo unitarioıˊ\redE{\text{círculo unitario}} el valor de 2x+y\blueE{2x + y} es máximo?
Esto es lo que se conoce como un problema de optimización con restricciones. La condición de usar puntos que satisfacen x2+y2=1\redE{x^2 + y^2 = 1} se llama una "restricción", y f(x,y)=2x+y\blueE{f(x, y) = 2x + y} es la función que necesita ser optimizada.
He aquí una manera de visualizar el problema: primero dibuja la gráfica de f(x,y)\blueE{f(x, y)}, que se ve como un plano inclinado, pues f\blueE{f} es lineal. Después proyecta el círculo x2+y2=1\redE{x^2 + y^2 = 1} verticalmente del plano xyxy sobre la gráfica de f\blueE{f}. El valor máximo que buscamos corresponde al punto más alto de este círculo proyectado sobre la gráfica.

La forma más general

En general, los problemas de optimización con restricciones involucran maximizar o minimizar una función multivariable cuya entrada tiene cualquier número de dimensiones:
f(x,y,z,)\blueE{f(x, y, z, \dots)}
Sin embargo, su salida siempre será unidimensional, ya que no hay una noción clara del "máximo" para funciones con valores vectoriales.
El tipo de restricciones con los que se aplica la técnica de los multiplicadores de Lagrange debe tomar la forma de otra función multivariable g(x,y,z,)\redE{g(x, y, z, \dots)} que sea igual a una constante c\redE{c}.
g(x,y,z,)=c\redE{g(x, y, z, \dots) = c}
Como esta va a ser una restricción sobre la entrada de f\blueE{f}, el número de dimensiones en la entrada de g\redE{g} es el mismo que el de f\blueE{f}. El ejemplo descrito antes cumple esta forma general de la siguiente manera:
f(x,y)=2x+y\blueE{f(x, y) = 2x+y}
g(x,y)=x2+y2\redE{g(x, y) = x^2 + y^2}
c=1\redE{c = 1}
Existe una generalización de la técnica de los multiplicadores de Lagrange que se aplica a situaciones con múltiples restricciones en la entrada.
g1(x,y,z,)=c1g2(x,y,z,)=c2g3(x,y,z,)=c3\begin{aligned} \redE{g_1(x, y, z, \dots)} &= \redE{c_1} \\ \redE{g_2(x, y, z, \dots)} &= \redE{c_2} \\ \redE{g_3(x, y, z, \dots)} &= \redE{c_3} \\ &\vdots \end{aligned}
En este artículo, sin embargo, solo trataremos el caso con una sola restricción.

Usar mapas de curvas de nivel

Razonar acerca de este problema se vuelve más fácil si visualizamos f\blueE{f} no con una gráfica, sino con sus curvas de nivel.
Como un recordatorio, una curva de nivel de f(x,y)\blueE{f(x, y)} es el conjunto de todos los puntos donde f(x,y)=k\blueE{f(x, y) = k} para alguna constante kk. La siguiente herramienta interactiva muestra cómo esta recta (dibujada en azul) cambia conforme la constante kk cambia. El círculo g(x,y)=1\redE{g(x, y) = 1} también se muestra (en rojo). Trata de hacer kk lo más grande o más chica que puedas sin que f\blueE{f} deje de intersecar el círculo.
Verificación de conceptos: ¿qué significa que para un valor particular de kk, la recta azul que representa a f(x,y)=k\blueE{f(x, y) = k} no interseque el círculo rojo que representa a g(x,y)=1\redE{g(x, y) = 1}?
Escoge 1 respuesta:
Escoge 1 respuesta:

Observa que el círculo g(x,y)=1\redE{g(x, y) = 1} puede pensarse como una curva de nivel particular de la función g\redE{g}. Así que con eso, esta es la manera inteligente de pensar acerca de problemas de optimización con restricciones:
Observación clave: los valores máximo y mínimo de f\blueE{f}, sujetos a la restricción g(x,y)=1\redE{g(x, y) = 1}, corresponden a las curvas de nivel de f\blueE{f} que son tangentes a la curva de nivel que representa g(x,y)=1\redE{g(x, y) = 1}.
Los extremos restringidos son tangentes.
Si f\blueE{f} fuera una función diferente, sus curvas de nivel podrían no ser siempre líneas rectas. Esto pasa en nuestro ejemplo, pues f\blueE{f} es lineal. Por ejemplo, mira esta función:
f(x,y)=2x2+5y\blueE{f(x, y) = 2x^2 + \sqrt{5y}},
Sus curvas de nivel se ven así:
Dicho esto, la observación clave se mantiene y vale la pena repetirla: cuando kk es un máximo o un mínimo de ff sujeto a la restricción, la curva de nivel de f(x,y)=k\blueE{f(x, y) = k} será tangente a la curva que representa g(x,y)=1\redE{g(x, y) = 1}.

Dónde entra en juego el gradiente

¿Cómo reflejar, en una fórmula que podamos resolver, la idea de que dos curvas de nivel sean tangentes?
Para responder esto, recurrimos a nuestro fiel amigo el gradiente. Hay muchas maneras de interpretarf\nabla f: la dirección de ascenso más pronunciado, una herramienta para calcular derivadas direccionales, etc. Pero para nuestro propósito, la propiedad que nos interesa es que el gradiente de ff evaluado en el punto (x0,y0)(x_0, y_0) siempre da un vector perpendicular a la curva de nivel que pasa por ese punto.
Los vectores gradientes son perpendiculares a las curvas de nivel.
Esto significa que cuando las curvas de nivel de dos funciones f\blueE{f} y g\redE{g} son tangentes, sus vectores gradientes son paralelos. Así es como se podrían ver para dos funciones arbitrarias f\blueE{f} y g\redE{g}:
Imagen de Wikipedia de curvas de nivel tangentes
El hecho de que las curvas de nivel sean tangentes no nos dice nada acerca de la magnitud de cada uno de estos vectores gradientes, pero eso está bien. Cuando dos vectores apuntan en la misma dirección, significa que podemos multiplicar cualquiera de los dos por una constante para obtener el otro. Específicamente, sea (x0,y0)(x_0, y_0) un punto particular donde las curvas de nivel de f\blueE{f} y g\redE{g} son tangentes (escribir x0x_0 y y0y_0 con subíndices 00 solo indica que estamos considerando valores constantes y, por lo tanto, un punto específico). Ya que esta tangencia significa que los vectores gradientes se alinean, esto es lo que podrías escribir:
f(x0,y0)=λ0g(x0,y0)\begin{aligned} \nabla \blueE{f(x_0, y_0)} = \greenE{\lambda}_0 \nabla \redE{g(x_0, y_0)} \end{aligned}
Aquí, λ0\greenE{\lambda}_0 representa alguna constante. Hay autores que usan una constante negativa λ0-\greenE{\lambda}_0, pero preferimos una constante positiva, pues se obtiene una interpretación más limpia de λ0\greenE{\lambda_0}.
Veamos cómo se ve esto en nuestro ejemplo, donde f(x,y)=2x+y\blueE{f(x, y) = 2x + y} and g(x,y)=x2+y2\redE{g(x, y) = x^2 + y^2}. El gradiente de ff es
f(x,y)=[x(2x+y)y(2x+y)]=[21]\begin{aligned} \nabla f(x, y) = \left[ \begin{array}{c} \dfrac{\partial}{\partial \blueD{x}}(2\blueD{x} + y) \\ \\ \dfrac{\partial}{\partial \redD{y}}(2x + \redD{y}) \\ \end{array} \right] = \left[ \begin{array}{c} 2 \\ 1 \end{array} \right] \end{aligned}
y el gradiente de gg es
g(x,y)=[x(x2+y21)y(x2+y21)]=[2x2y]\begin{aligned} \nabla g(x, y) = \left[ \begin{array}{c} \dfrac{\partial}{\partial \blueD{x}}(\blueD{x}^2 + y^2 - 1) \\ \\ \dfrac{\partial}{\partial \redD{y}}(x^2 + \redD{y}^2 - 1) \\ \end{array} \right] = \left[ \begin{array}{c} 2x \\ 2y \end{array} \right] \end{aligned}
Por lo tanto, la condición de tangencia termina por verse así:
[21]=λ0[2x02y0]\begin{aligned} \left[ \begin{array}{c} 2 \\ 1 \end{array} \right] = \greenE{\lambda_0} \left[ \begin{array}{c} 2x_0 \\ 2y_0 \end{array} \right] \end{aligned}

Resolver el problema en el caso específico

Para resumir en donde estamos hasta ahora, buscamos puntos de entrada (x0,y0)(x_0, y_0) con las siguientes propiedades:
  • g(x0,y0)=1g(x_0, y_0) = 1, que para nuestro ejemplo significa
    x02+y02=1\quad \redE{x_0^2 + y_0^2 = 1}
  • f(x0,y0)=λ0g(x0,y0)\nabla f(x_0, y_0) = \greenE{\lambda_0} \nabla g(x_0, y_0) para alguna constante λ0\greenE{\lambda_0}, que para nuestro ejemplo significa
    2=2λ0x01=2λ0y0\begin{aligned} \quad {2} &{= 2\greenE{\lambda_0} x_0} \\ {1} &{= 2\greenE{\lambda_0} y_0} \end{aligned}
Hay 33 ecuaciones con 33 incógnitas, así que podemos encontrar una solución.
El enfoque será primero resolver para λ0\lambda_0, después usar la solución para encontrar x0x_0 y y0y_0.
Al usar las últimas dos ecuaciones de arriba, escribimos x0x_0 y y0y_0 en términos de λ0\lambda_0.
2=2λ0x0x0=1λ01=2λ0y0y0=12λ0\begin{aligned} 2 &= 2\lambda_0 x_0 \Rightarrow \purpleE{x_0 = \dfrac{1}{\lambda_0}} \\ \\ 1 &= 2\lambda_0 y_0 \Rightarrow \goldE{y_0 = \dfrac{1}{2\lambda_0}} \end{aligned}
Para ahora hacer uso de la tercera ecuación, sustituye estos resultados en la ecuación x02+y02=1x_0^2 + y_0^2 = 1.
x02+y02=1(1λ0)2+(12λ0)2=11λ02+14λ02=1\begin{aligned} \purpleE{x_0}^2 + \goldE{y_0}^2 &= 1 \\ \purpleE{\left(\dfrac{1}{\lambda_0}\right)}^2 + \goldE{\left(\dfrac{1}{2\lambda_0}\right)}^2 &= 1 \\ \dfrac{1}{\lambda_0^2} + \dfrac{1}{4\lambda_0^2} &= 1 \\ \end{aligned}
Para quitar λ0\lambda_0 de los denominadores, multiplicamos todo por 4λ024\lambda_0^2 y simplificamos.
4+1=4λ0254=λ02±54=λ0±52=λ0\begin{aligned} 4 + 1 &= 4\lambda_0^2 \\ \dfrac{5}{4} &= \lambda_0^2 \\ \\ \pm \sqrt{\dfrac{5}{4}} &= \lambda_0 \\ \\ \dfrac{\pm \sqrt{5}}{2} &= \lambda_0 \end{aligned}
Al usar las expresiones para x0\purpleE{x_0} y y0\goldE{y_0} en términos de λ0\lambda_0 que encontramos arriba, estas dos soluciones corresponden con los pares
(x0,y0)=(1λ0,12λ0)=(25,15) o (25,15)\begin{aligned} (\purpleE{x_0}, \goldE{y_0}) &= \left(\purpleE{\dfrac{1}{\lambda_0}}, \goldE{\dfrac{1}{2\lambda_0}} \right) \\ &= \left(\purpleE{\dfrac{2}{\sqrt{5}}}, \goldE{\dfrac{1}{\sqrt{5}}} \right) \quad \text{ o } \quad \left(\purpleE{\dfrac{-2}{\sqrt{5}}}, \goldE{\dfrac{-1}{\sqrt{5}}} \right) \end{aligned}
Podemos ver cuál de estos es un punto máximo y cuál es un mínimo al sustituir estas soluciones en f(x,y)f(x, y) y ver cuál es más grande.
f(25,15)=225+15=55=5Mximoaˊf(25,15)=225+15=55=5Mnimoıˊ\begin{aligned} f\left(\dfrac{2}{\sqrt{5}}, \dfrac{1}{\sqrt{5}} \right) &= 2\dfrac{2}{\sqrt{5}} + \dfrac{1}{\sqrt{5}} \\ \\ &= \dfrac{5}{\sqrt{5}} \\ \\ &= \sqrt{5} \quad \leftarrow \small{\gray{\text{Máximo}}} \\ f\left(-\dfrac{2}{\sqrt{5}}, -\dfrac{1}{\sqrt{5}} \right) &= 2\dfrac{-2}{\sqrt{5}} + \dfrac{-1}{\sqrt{5}} \\ \\ &= \dfrac{-5}{\sqrt{5}} \\ \\ &= -\sqrt{5} \quad \leftarrow \small{\gray{\text{Mínimo}}} \end{aligned}
Soluciones

La función lagrangiana

Foto de Lagrange
Joseph Louis Lagrange, con una mirada tranquila, satisfecho, y con sueño, todo al mismo tiempo. Wikimedia Commons
En los 1700s, nuestro amigo Joseph Louis Lagrange estudió problemas de optimización con restricciones de este tipo, y encontró una manera muy inteligente para expresar todas nuestras condiciones en una sola ecuación.
Puedes escribir estas condiciones de manera general al decir que estamos buscando constantes x0x_0, y0y_0 y λ0\lambda_0 que satisfagan las siguientes condiciones:
  • La restricción:
    g(x0,y0)=c\redE{g(x_0, y_0) = c}
  • La condición de tangencia:
    f(x0,y0)=λ0g(x0,y0)\nabla f(x_0, y_0) = \lambda_0 \nabla g(x_0, y_0).
    Esto se puede dividir en sus componentes como sigue:
    • fx(x0,y0)=λ0gx(x0,y0){f_x(x_0, y_0) = \lambda_0 g_x(x_0, y_0)}
    • fy(x0,y0)=λ0gy(x0,y0){f_y(x_0, y_0) = \lambda_0 g_y(x_0, y_0)}
Lagrange escribió una nueva función especial que toma las mismas variables de entrada que ff y gg, junto con λ\lambda, que ahora pensamos como una variable en lugar de una constante.
L(x,y,λ)=f(x,y)λ(g(x,y)c) \mathcal{L}(x, y, \lambda) = \blueE{f(x, y)} - \lambda (\redE{g(x, y)-c})
Por ejemplo, considera nuestro ejemplo anterior.
f(x,y)=2x+yg(x,y)=x2+y2c=1\begin{aligned} \quad \blueE{f(x, y)} &= \blueE{2x + y }\\ \redE{g(x, y)} &= \redE{x^2 + y^2} \\ \redE{c} &= \redE{1} \\ \end{aligned}
Así es cómo se vería esta nueva función:
L(x,y,λ)=2x+yλ(x2+y21). \mathcal{L}(x, y, \lambda) = \blueE{2x + y} - \lambda(\redE{x^2 + y^2 - 1}).
Observa que la derivada parcial de L\mathcal{L} con respecto a λ\lambda es (g(x,y)c)-(g(x, y)-c):
Lλ(x,y,λ)=λ(f(x,y)λ(g(x,y)c)=0(g(x,y)c)\begin{aligned} \quad \mathcal{L}_\lambda(x, y, \lambda) &= \dfrac{\partial}{\partial \lambda}\left(f(x, y) - \lambda (g(x, y)-c \right) \\ &= 0 - (g(x, y)-c) \end{aligned}
Así que podemos traducir la condición g(x,y)=cg(x, y) = c como
Lλ(x,y,λ)=g(x,y)+c=0\begin{aligned} \quad \redE{ \mathcal{L}_\lambda(x, y, \lambda) = -g(x, y) + c = 0 } \end{aligned}
Es más, mira lo que obtenemos cuando hacemos una de las derivadas parciales igual a 00:
Lx(x,y,λ)=0x(f(x,y)λ(g(x,y)c))=0fx(x,y)λgx(x,y)=0fx(x,y)=λgx(x,y)\begin{aligned} \quad \mathcal{L}_x(x, y, \lambda) &= 0 \\ \\ \dfrac{\partial}{\partial x}(f(x, y) - \lambda (g(x, y)-c)) &= 0 \\ \\ f_x(x, y) - \lambda g_x(x, y) &= 0 \\ \\ {f_x(x, y)} &{= \lambda g_x(x, y)} \end{aligned}
¡Eso resulta ser otra de nuestras otras condiciones! De manera casi idéntica, la condición Ly(x,y,λ)=0\mathcal{L}_y(x, y, \lambda) = 0 se revela como
fy(x,y)=λgy(x,y)\begin{aligned} \quad {f_y(x, y) = \lambda g_y(x, y)} \end{aligned}
Juntas, estas condiciones son lo mismo que decir
f(x,y)=λg(x,y)\begin{aligned} \quad \nabla f(x, y) = \lambda \nabla g(x, y) \end{aligned}
Por lo tanto, las tres condiciones que necesitamos resolver para encontrar x,yx, y y λ\lambda se resumen a que las derivadas parciales de L\mathcal{L} sean iguales a 00. Esto se puede escribir de manera extremadamente compacta al hacer el gradiente de L\mathcal{L} igual al vector cero:
L=0\begin{aligned} \quad \nabla \mathcal{L} = \textbf{0} \end{aligned}
Por ejemplo, con nuestras funciones específicas de arriba, vemos que esto conforma el sistema de ecuaciones que tenemos que resolver:
L=[x(2x+yλ(x2+y21))y(2x+yλ(x2+y21))λ(2x+yλ(x2+y21))]=[22λx12λyx2y2+1]=[000]\begin{aligned} \quad \nabla \mathcal{L} = \left[ \begin{array}{c} \dfrac{\partial}{\partial x}(2x + y - \lambda(x^2 + y^2 - 1)) \\ \\ \dfrac{\partial}{\partial y}(2x + y - \lambda(x^2 + y^2 - 1)) \\ \\ \dfrac{\partial}{\partial \lambda}(2x + y - \lambda(x^2 + y^2 - 1)) \\ \\ \end{array} \right] = \left[ \begin{array}{c} 2 - 2\lambda x \\ 1 - 2\lambda y \\ -x^2 - y^2 + 1 \\ \end{array} \right] = \left[ \begin{array}{c} 0 \\ 0 \\ 0 \\ \end{array} \right] \end{aligned}
Como un tributo a Joseph Louis, a esta función L\mathcal{L} la llamamos el "lagrangiano", y la nueva variable λ\lambda que introdujimos se llama un "multiplicador de Lagrange". Imagínate que alguien le agregara "iano" al final de tu apellido y lo hiciera el nombre de una función que todo mundo usa. ¡Genial!, ¿no?
Advertencia: algunos autores usan la convención en la que invierten el signo de λ\lambda:
L(x,y,λ)=f(x,y)+λ(g(x,y)c)\begin{aligned} \quad \mathcal{L}(x, y, \lambda) = f(x, y) \redE{+} \lambda (g(x, y)-c) \end{aligned}
Esto no hace ninguna diferencia cuando se trata de resolver el problema, pero debes tenerlo en mente si el curso que estás tomando o el texto que estás leyendo sigue esta convención.

Nota al margen: ¿qué pasa si la restricción no es tan restricitva?

Hay un leve giro a esta historia, que se ilustra mejor con un ejemplo.
Gráfica de curva de campana con recta de restricción.
Hay un leve giro a esta historia, que se ilustra mejor con un ejemplo.
Supongamos que necesitamos maximizar la función
f(x,y)=e(x2+y2)\begin{aligned} \quad \blueE{f(x, y) = e^{-(x^2 + y^2)}} \end{aligned}
Sujeto a la restricción
g(x,y)=x+y=0\begin{aligned} \quad \redE{g(x, y) = x+y = 0} \end{aligned}
La gráfica de f(x,y)=e(x2+y2)f(x, y) = e^{-(x^2+y^2)} es una "curva de campana", con una protuberancia redonda encima del punto (x0,y0)=(0,0)(x_0, y_0) = (0, 0), como se ve en la imagen de arriba.
Esta restricción se puede ver como una línea recta diagonal en el plano xyxy (mostrada en rojo).
Condición x+y=0x + y = 0
Lo que hace que este problem sea un poco tonto es que el punto máximo (sin restricción) (0,0)(0, 0) de ff ya satisface la restricción g(x,y)=0g(x, y) = 0, ya que
g(0,0)=0+0=0\begin{aligned} \quad g(0, 0) = 0 + 0 = 0 \end{aligned}
Podría parecer que esto nos facilita la cosas. Después de todo, no tener que preocuparse acerca de la restricción debería ser más simple que tomarla en cuenta, ¿no? Sin embargo, si tú (o de manera más realista, una computadora) estuvieras resolviendo un problema de optimización con restricciones, no es como si primero fueras a encontrar el máximo sin restricciones, revisar si se ajusta a la restricción y luego seguir con la técnica del multiplicador de Lagrange. Simplemente empezarías con el enfoque del multiplicador de Lagrange, pues casi nunca es el caso que el máximo sin restricción sea también es el máximo con restricción.
Resulta que la técnica del multiplicador de Lagrange aún funciona cuando el máximo con restricción también es un máximo sin restricción. La razón es un poco sutil ya que nuestro argumento anterior de curvas de nivel y tangencia no aplica del todo.
Por ejemplo, vamos a jugar un poco con las curvas de nivel que representan a e(x2+y2)=ke^{-(x^2 + y^2)} = k, a medida que kk varía de 0.50.5 a 11:
La curva de nivel que representa e(x2+y2)=ke^{-(x^2 + y^2)} = k siempre cruza la recta x+y=0x+y = 0, y esta curva de nivel se encoge a un punto cuando kk crece lo más posible. Anteriormente dijimos que las curvas de nivel serían tangentes cuando ff alcanzara su máximo con restricciones, pero no suena bien decir que un punto sea tangente a una recta.
¿Entonces por qué esto no es un problema?
Plano tangente de ff en su máximo.
Plano tangente de ff en su máximo.
Si ff alcanza un máximo local sin restricciones en algún punto (x0,y0)(x_0, y_0), su gradiente en ese punto será 00.
f(x0,y0)=0\begin{aligned} \quad \nabla f(x_0, y_0) = \textbf{0} \end{aligned}
Puedes pensar en esto como decir que el plano tangente en un máximo local es horizontal.
En este caso, la propiedad
f(x0,y0)=λg(x0,y0)\begin{aligned} \quad \nabla f(x_0, y_0) = \lambda \nabla g(x_0, y_0) \end{aligned}
aún se cumple, pues podemos hacer λ=0\lambda = 0.
Una manera divertida de pensar en esto es decir que un punto es "tangente" a todas las rectas que pasan por él en el mismo sentido en que el vector cero es "proporcional" a todos los demás vectores.
Así que la técnica del multiplicador de Lagrange no solo consolida de manera inteligente muchas condiciones en la ecuación
L=0,\begin{aligned} \quad \nabla \mathcal{L} = \textbf{0}, \end{aligned}
también automáticamente toma en cuenta este caso extremo!

Resumen

Optimización restringida
Crédito de la imagen: por Nexcis (trabajo propio) [Dominio público], a través de Wikimedia Commons
Cuando quieres maximizar (o minimizar) una función multivariable f(x,y,) \blueE{f(x, y, \dots)} sujeta a la restricción de que otra función multivariable sea igual a una constante g(x,y,)=c\redE{g(x, y, \dots) = c}, sigue estos pasos:
  • Paso 1: introduce una nueva variable λ\greenE{\lambda} y define una nueva función L\mathcal{L} como sigue:
    L(x,y,,λ)=f(x,y,)λ(g(x,y,)c) \mathcal{L}(x, y, \dots, \greenE{\lambda}) = \blueE{f(x, y, \dots)} - \greenE{\lambda} (\redE{g(x, y, \dots)-c})
    Esta función L\mathcal{L} se llama el "lagrangiano", y a la nueva variable λ\greenE{\lambda} se le conoce como un "multiplicador de Lagrange".
  • Paso 2: haz el gradiente de L\mathcal{L} igual al vector cero.
    L(x,y,,λ)=0Vector cero \nabla \mathcal{L}(x, y, \dots, \greenE{\lambda}) = \textbf{0} \quad \leftarrow \small{\gray{\text{Vector cero}}}
    En otras palabras, encuentra los puntos críticos de L\mathcal{L}.
  • Paso 3: considera cada solución, que se ve algo así como (x0,y0,,λ0)(x_0, y_0, \dots, \greenE{\lambda}_0). Sustituye cada uno en ff. O, más bien, primero quita la componente λ0\greenE{\lambda}_0 y luego sustituye cada uno en ff, pues ff no tiene λ\greenE{\lambda} como valor de entrada. El que te de el valor más grande (o más pequeña) es el punto máximo (o mínimo) que buscas.
Cargando