If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Las derivadas direccionales (a fondo)

Una visión más detallada de la fórmula de las derivadas direccionales, junto con una explicación de por qué el gradiente da la dirección del ascenso más pronunciado.

Antecedentes:

Este artículo va dirigido para aquellos que quieran una comprensión más profunda de la derivada direccional y de su fórmula.

La definición formal de la derivada direccional

Hay un par de razones por las que te podría importar una definición formal. Por un lado, entender realmente la definición formal de un nuevo concepto puede aclarar lo que realmente está sucediendo. Pero más importante que eso, creo que el beneficio principal es que te da la confianza de reconocer cuando puedes aplicar ese concepto y cuando no.
Como calentamiento, repasemos la definición formal de la derivada parcial, digamos con respecto a x:
fx(x0,y0)=limh0f(x0+h,y0)f(x0,y0)h
La conexión entre la manera informal de leer fx y la manera formal de leer el lado derecho es la siguiente:
SímboloComprensión informal Comprensión formal
xUn pequeño desplazamiento en dirección x.Una variable infinitesimal h que tiende a 0 y que se le va a sumar a la primera componente de la entrada de la función.
fEl resultado del cambio en el valor de salida de f después del desplazamiento.La diferencia entre f(x0+h,y0) y f(x0,y0), tomada en el mismo límite a medida que h0.
En su lugar, podríamos escribir la definición en notación vectorial, al ver el punto de entrada (x0,y0) como el vector bidimensional
x0=[x0y0]
Aquí, x0 está en negritas para enfatizar que es un vector. Es un poco confuso usar la letra x en negritas para toda la entrada en vez de otra letra, pues ya estamos usando la letra x para denotar la primera componente de la entrada. Pero bueno, es una convención, así que la usaremos.
En vez de escribir el valor de entrada "desplazado" como (x0+h,y0), lo escribimos como x0+hi^, donde i^ es el vector unitario en la dirección x:
fx(x0)=limh0f(x0+hi^)f(x0)h
Con esta notación, es mucho más fácil ver cómo generalizar la derivada parcial con respecto a x a la derivada direccional a lo largo de cualquier vector v:
vf(x0)=limh0f(x0+hv)f(x0)h
En este caso, sumarle hv a la entrada para una variable infinitesimal h0 formaliza la idea de un pequeño desplazamiento en la dirección de v.
Desplazamiento de la derivada direccional

Buscar la conexión entre la definición y el cálculo

Calcular la derivada direccional involucra el producto punto entre el gradiente f y el vector v. Por ejemplo, en dos dimensiones, esto se vería así:
vf(x,y)=fv=[fxfy][v1v2]=v1fx(x,y)+v2fy(x,y)
Aquí, v1 y v2 son las componentes de v.
v=[v1v2]
La pregunta central es: ¿qué tiene que ver esta fórmula con la definición dada anteriormente?

Descomponer el desplazamiento

El cálculo de vf se puede ver como una forma de descomponer un pequeño paso en la dirección de v en sus componentes x y y.
Separa un paso a lo largo del vector hv en componentes
Específicamente, puedes imaginarte el siguiente procedimiento:
  1. Comienza en algún punto (x0,y0).
  2. Escoge un valor pequeño de h.
  3. Suma hv1 a x0, lo cual significa llegar al punto (x0+hv1,y0). De lo que sabemos de las derivadas parciales, esto cambiará el valor de salida de la función por aproximadamente
hv1(fx(x0,y0))
  • Ahora suma hv2 a y0 para llegar arriba/abajo del punto (x0+hv1,y0+hv2). El cambio resultante de f ahora es aproximadamente
hv2(fy(x0+hv1,y0))
Al sumar los resultados de los pasos 3 y 4, el cambio total de la función que resultó de ir de la entrada (x0,y0) a la entrada (x0+hv1,y0+hv2) fue de aproximadamente
hv1(fx(x0,y0))+hv2(fy(x0+hv1,y0))
Este resultado es muy cercano a la expresión de la derivada direccional, que dice que el cambio en f debido a este paso hv debe ser de aproximadamente
=hvf(x0,y0)=hvf(x0,y0)=hv1fx(x0,y0)+hv2fy(x0,y0)
Sin embargo, esto difiere ligeramente del resultado de nuestra argumentación que hicimos paso a paso, en la cual se toma la derivada parcial con respecto a y en el punto (x0+hv1,y0), no en el punto (x0,y0).
Afortunadamente estamos considerando valores muy, muy pequeños de h. De hecho, técnicamente deberíamos de hablar del límite conforme h0. Por lo tanto, evaluar fy en el punto (x0+hv1,y0) será casi lo mismo que evaluarla en (x0,y0). Además, conforme h tiende a 0, también lo hace la diferencia entre estos dos puntos, pero debemos suponer que f es continua.

¿Por qué el gradiente apunta en la dirección del ascenso más pronunciado?

Una vez que ya aprendimos acerca de las derivadas direccionales, ahora podemos entender por qué la dirección del gradiente es la del ascenso más pronunciado.
El concepto del ascenso más pronunciado.
Específicamente, esta es la pregunta en cuestión.
Escenario:
  • Sea f una función escalar multivariable, como f(x,y)=x2+y2.
  • Sea (x0,y0) un punto de entrada particular.
  • Considera todas las posibles direcciones, es decir, todos los vectores unitarios u^ en el espacio de entradas de f.
Pregunta (informal): si comenzamos en (x0,y0), ¿en cuál dirección debemos caminar de modo que la salida de f se incremente más rápidamente?
Pregunta (formal): ¿cuál vector unitario u^ maximiza la derivada direccional a lo largo de u^?
u^f(x0,y0)=u^f(x0,y0)Maximiza esta cantidad
La famosa desigualdad del triángulo nos dice que esta derivada será maximizada por el vector unitario en la dirección de f(x0,y0).
Maximiza el producto punto
Observa que el hecho de que el gradiente apunte en la dirección del ascenso más pronunciado es una consecuencia del hecho más fundamental de que todas las derivada direccionales requieren tomar el producto punto con f.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.