If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Introducción a los multiplicadores de Lagrange

La técnica de los "multiplicadores de Lagrange" es una forma de resolver problemas de optimización con restricciones. ¡Súper útil!

Qué vamos a construir:

  • La técnica de los multiplicadores de Lagrange te permite encontrar el máximo o el mínimo de una función multivariable, f(x,y,), cuando hay alguna restricción en los valores de entrada que puedes usar.
  • Esta técnica solo se aplica a restricciones que se ven así:
    g(x,y,)=c
    Aquí, g es otra función multivariable con el mismo espacio de entrada que f y c es alguna constante.
  • La idea central es buscar puntos en donde las curvas de nivel de f y g sean tangentes entre sí.
  • Esto es lo mismo que encontrar puntos en donde los vectores de los gradientes de f y g sean paralelos entre sí.
  • Todo el proceso puede reducirse a hacer el gradiente de una cierta función, llamada el lagrangiano, igual al vector cero.

Un ejemplo para motivarte

Supón que quieres maximizar esta función
f(x,y)=2x+y
Gráfica de la función f(x,y)=2x+y
Gráfica de la función f(x,y)=2x+y
Pero también digamos que limitaste los valores de entrada (x,y) que satisfacen la siguiente ecuación:
x2+y2=1
El círculo unitario
Todos los puntos (x,y) que satisfacen x2+y2=1 están en el círculo unitario.
En otras palabras, ¿para qué punto (x,y) sobre el círculo unitario el valor de 2x+y es máximo?
Esto es lo que se conoce como un problema de optimización con restricciones. La condición de usar puntos que satisfacen x2+y2=1 se llama una "restricción", y f(x,y)=2x+y es la función que necesita ser optimizada.
He aquí una manera de visualizar el problema: primero dibuja la gráfica de f(x,y), que se ve como un plano inclinado, pues f es lineal. Después proyecta el círculo x2+y2=1 verticalmente del plano xy sobre la gráfica de f. El valor máximo que buscamos corresponde al punto más alto de este círculo proyectado sobre la gráfica.
Contenedor video de Khan Academy

La forma más general

En general, los problemas de optimización con restricciones involucran maximizar o minimizar una función multivariable cuya entrada tiene cualquier número de dimensiones:
f(x,y,z,)
Sin embargo, su salida siempre será unidimensional, ya que no hay una noción clara del "máximo" para funciones con valores vectoriales.
El tipo de restricciones con los que se aplica la técnica de los multiplicadores de Lagrange debe tomar la forma de otra función multivariable g(x,y,z,) que sea igual a una constante c.
g(x,y,z,)=c
Como esta va a ser una restricción sobre la entrada de f, el número de dimensiones en la entrada de g es el mismo que el de f. El ejemplo descrito antes cumple esta forma general de la siguiente manera:
f(x,y)=2x+y
g(x,y)=x2+y2
c=1

Usar mapas de curvas de nivel

Razonar acerca de este problema se vuelve más fácil si visualizamos f no con una gráfica, sino con sus curvas de nivel.
Como un recordatorio, una curva de nivel de f(x,y) es el conjunto de todos los puntos donde f(x,y)=k para alguna constante k. La siguiente herramienta interactiva muestra cómo esta recta (dibujada en azul) cambia conforme la constante k cambia. El círculo g(x,y)=1 también se muestra (en rojo). Trata de hacer k lo más grande o más chica que puedas sin que f deje de intersecar el círculo.
Verificación de conceptos: ¿qué significa que para un valor particular de k, la recta azul que representa a f(x,y)=k no interseque el círculo rojo que representa a g(x,y)=1?
Escoge 1 respuesta:

Observa que el círculo g(x,y)=1 puede pensarse como una curva de nivel particular de la función g. Así que con eso, esta es la manera inteligente de pensar acerca de problemas de optimización con restricciones:
Observación clave: los valores máximo y mínimo de f, sujetos a la restricción g(x,y)=1, corresponden a las curvas de nivel de f que son tangentes a la curva de nivel que representa g(x,y)=1.
Los extremos restringidos son tangentes.
Si f fuera una función diferente, sus curvas de nivel podrían no ser siempre líneas rectas. Esto pasa en nuestro ejemplo, pues f es lineal. Por ejemplo, mira esta función:
f(x,y)=2x2+5y,
Sus curvas de nivel se ven así:
Dicho esto, la observación clave se mantiene y vale la pena repetirla: cuando k es un máximo o un mínimo de f sujeto a la restricción, la curva de nivel de f(x,y)=k será tangente a la curva que representa g(x,y)=1.

Dónde entra en juego el gradiente

¿Cómo reflejar, en una fórmula que podamos resolver, la idea de que dos curvas de nivel sean tangentes?
Para responder esto, recurrimos a nuestro fiel amigo el gradiente. Hay muchas maneras de interpretarf: la dirección de ascenso más pronunciado, una herramienta para calcular derivadas direccionales, etc. Pero para nuestro propósito, la propiedad que nos interesa es que el gradiente de f evaluado en el punto (x0,y0) siempre da un vector perpendicular a la curva de nivel que pasa por ese punto.
Los vectores gradientes son perpendiculares a las curvas de nivel.
Esto significa que cuando las curvas de nivel de dos funciones f y g son tangentes, sus vectores gradientes son paralelos. Así es como se podrían ver para dos funciones arbitrarias f y g:
Imagen de Wikipedia de curvas de nivel tangentes
El hecho de que las curvas de nivel sean tangentes no nos dice nada acerca de la magnitud de cada uno de estos vectores gradientes, pero eso está bien. Cuando dos vectores apuntan en la misma dirección, significa que podemos multiplicar cualquiera de los dos por una constante para obtener el otro. Específicamente, sea (x0,y0) un punto particular donde las curvas de nivel de f y g son tangentes (escribir x0 y y0 con subíndices 0 solo indica que estamos considerando valores constantes y, por lo tanto, un punto específico). Ya que esta tangencia significa que los vectores gradientes se alinean, esto es lo que podrías escribir:
f(x0,y0)=λ0g(x0,y0)
Aquí, λ0 representa alguna constante. Hay autores que usan una constante negativa λ0, pero preferimos una constante positiva, pues se obtiene una interpretación más limpia de λ0.
Veamos cómo se ve esto en nuestro ejemplo, donde f(x,y)=2x+y and g(x,y)=x2+y2. El gradiente de f es
f(x,y)=[x(2x+y)y(2x+y)]=[21]
y el gradiente de g es
g(x,y)=[x(x2+y21)y(x2+y21)]=[2x2y]
Por lo tanto, la condición de tangencia termina por verse así:
[21]=λ0[2x02y0]

Resolver el problema en el caso específico

Para resumir en donde estamos hasta ahora, buscamos puntos de entrada (x0,y0) con las siguientes propiedades:
  • g(x0,y0)=1, que para nuestro ejemplo significa
    x02+y02=1
  • f(x0,y0)=λ0g(x0,y0) para alguna constante λ0, que para nuestro ejemplo significa
    2=2λ0x01=2λ0y0
Hay 3 ecuaciones con 3 incógnitas, así que podemos encontrar una solución.

La función lagrangiana

Foto de Lagrange
Joseph Louis Lagrange, con una mirada tranquila, satisfecho, y con sueño, todo al mismo tiempo. Wikimedia Commons
En los 1700s, nuestro amigo Joseph Louis Lagrange estudió problemas de optimización con restricciones de este tipo, y encontró una manera muy inteligente para expresar todas nuestras condiciones en una sola ecuación.
Puedes escribir estas condiciones de manera general al decir que estamos buscando constantes x0, y0 y λ0 que satisfagan las siguientes condiciones:
  • La restricción:
    g(x0,y0)=c
  • La condición de tangencia:
    f(x0,y0)=λ0g(x0,y0).
    Esto se puede dividir en sus componentes como sigue:
  • fx(x0,y0)=λ0gx(x0,y0)
  • fy(x0,y0)=λ0gy(x0,y0)
Lagrange escribió una nueva función especial que toma las mismas variables de entrada que f y g, junto con λ, que ahora pensamos como una variable en lugar de una constante.
L(x,y,λ)=f(x,y)λ(g(x,y)c)
Por ejemplo, considera nuestro ejemplo anterior.
f(x,y)=2x+yg(x,y)=x2+y2c=1
Así es cómo se vería esta nueva función:
L(x,y,λ)=2x+yλ(x2+y21).
Observa que la derivada parcial de L con respecto a λ es (g(x,y)c):
Lλ(x,y,λ)=λ(f(x,y)λ(g(x,y)c)=0(g(x,y)c)
Así que podemos traducir la condición g(x,y)=c como
Lλ(x,y,λ)=g(x,y)+c=0
Es más, mira lo que obtenemos cuando hacemos una de las derivadas parciales igual a 0:
Lx(x,y,λ)=0x(f(x,y)λ(g(x,y)c))=0fx(x,y)λgx(x,y)=0fx(x,y)=λgx(x,y)
¡Eso resulta ser otra de nuestras otras condiciones! De manera casi idéntica, la condición Ly(x,y,λ)=0 se revela como
fy(x,y)=λgy(x,y)
Juntas, estas condiciones son lo mismo que decir
f(x,y)=λg(x,y)
Por lo tanto, las tres condiciones que necesitamos resolver para encontrar x,y y λ se resumen a que las derivadas parciales de L sean iguales a 0. Esto se puede escribir de manera extremadamente compacta al hacer el gradiente de L igual al vector cero:
L=0
Por ejemplo, con nuestras funciones específicas de arriba, vemos que esto conforma el sistema de ecuaciones que tenemos que resolver:
L=[x(2x+yλ(x2+y21))y(2x+yλ(x2+y21))λ(2x+yλ(x2+y21))]=[22λx12λyx2y2+1]=[000]
Como un tributo a Joseph Louis, a esta función L la llamamos el "lagrangiano", y la nueva variable λ que introdujimos se llama un "multiplicador de Lagrange". Imagínate que alguien le agregara "iano" al final de tu apellido y lo hiciera el nombre de una función que todo mundo usa. ¡Genial!, ¿no?
Advertencia: algunos autores usan la convención en la que invierten el signo de λ:
L(x,y,λ)=f(x,y)+λ(g(x,y)c)
Esto no hace ninguna diferencia cuando se trata de resolver el problema, pero debes tenerlo en mente si el curso que estás tomando o el texto que estás leyendo sigue esta convención.

Resumen

Optimización restringida
Crédito de la imagen: por Nexcis (trabajo propio) [Dominio público], a través de Wikimedia Commons
Cuando quieres maximizar (o minimizar) una función multivariable f(x,y,) sujeta a la restricción de que otra función multivariable sea igual a una constante g(x,y,)=c, sigue estos pasos:
  • Paso 1: introduce una nueva variable λ y define una nueva función L como sigue:
    L(x,y,,λ)=f(x,y,)λ(g(x,y,)c)
    Esta función L se llama el "lagrangiano", y a la nueva variable λ se le conoce como un "multiplicador de Lagrange".
  • Paso 2: haz el gradiente de L igual al vector cero.
    L(x,y,,λ)=0Vector cero
    En otras palabras, encuentra los puntos críticos de L.
  • Paso 3: considera cada solución, que se ve algo así como (x0,y0,,λ0). Sustituye cada uno en f. O, más bien, primero quita la componente λ0 y luego sustituye cada uno en f, pues f no tiene λ como valor de entrada. El que te de el valor más grande (o más pequeña) es el punto máximo (o mínimo) que buscas.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.