Contenido principal
Estadística y probabilidad
Curso: Estadística y probabilidad > Unidad 5
Lección 6: Más sobre regresión- Error cuadrático en la regresión lineal
- Demostración de la minimización del error cuadrático en la regresión lineal. Parte 1
- Demostración de la minimización del error cuadrático en la regresión lineal. Parte 2
- Demostración de la minimización del error cuadrático en la regresión lineal. Parte 3
- Demostración de la minimización del error cuadrático en la regresión lineal. Parte 4
- Regresión lineal. Ejemplo
- Segunda regresión. Ejemplo
- Calcular la R cuadrada
- La covarianza y la regresión lineal
© 2023 Khan AcademyTérminos de usoPolítica de privacidadAviso de cookies
La covarianza y la regresión lineal
La covarianza, la varianza y la pendiente de la recta de regresión. Creado por Sal Khan.
¿Quieres unirte a la conversación?
Sin publicaciones aún.
Transcripción del video
en este vídeo quiero presentarles la idea de la covarianza entre dos variables aleatorias que está definido como el valor esperado de la distancia o el producto de las distancias de cada una de las variables aleatorias de su media o de su valor esperado ahora vamos a escribir esto vamos a poner la equis en un color diferente así que el valor esperado de la variable aleatoria x - el valor esperado de esta variable x x y esa es la variable aleatoria de color verde por la distancia de y hasta su valor esperado la población media de g si esto no tiene sentido para ustedes en este momento siempre podemos revisar y pensar acerca de lo que está ocurriendo acá ponemos algunos números aquí y hacemos las matemáticas pero en la realidad esto quiere decir que tanto varían juntas tenemos una equis y una por cada uno de los puntos de la información y tomamos toda la población cada equis y ya van juntas mutuamente son una coordenada que escribimos aquí vamos a ver un ejemplo digamos que esta x va a estar por encima de su media y lleva a estar por debajo de su media de esta población vamos a tomar una instancia de las variables aleatorias xy le tomamos una muestra del universo y encontramos que x es igual a 1 kg es igual vamos a decir que es igual a 3 y digamos que sabemos de antemano que el valor esperado de x es cero y el valor esperado de ella va a ser igual a 4 bueno en esta situación que es lo que acaba de pasar no conocemos la covarianza total sólo tenemos una muestra aquí de estas variables aleatorias pero lo que acaba de pasar es tenemos 1 menos no vamos a calcular todo el valor esperado pero vamos a tomar los valores de esta muestra y ver qué sucede cuando hacemos esto que está dentro del valor esperado tenemos 1 - 0 1 - 0 es igual a 1 x 3 menos 4 que es menos 11 x menos 1 va a ser igual a menos 1 esto que nos dice nos dice que al menos para esta muestra de nuestras variables aleatorias x siguen que x está por encima de su valor esperado cuando yo estaba por debajo de su propio valor esperado si seguimos haciendo esto y que ocurrirá lo mismo para toda la población entonces tendré sentido que tu vida una covarianza negativa ya que cuando una sube la otra baja cuando una baja la otra sube si ambas subieran juntas tendrían una covarianza positiva lo mismo si ambas fueran hacia abajo al mismo tiempo sería una cobardía esa positiva y el grado en el que van juntas es lo que nos dice la magnitud de la covarianza en este vídeo quiero unir esta fórmula que es la definición de la covarianza con todo lo que hemos hecho con la regresión por mínimos cuadrados y este es digamos que una matemática divertida para mostrar todas estas conexiones y podemos ver que la definición de ccoo varianza realmente se vuelve útil y yo pienso que esto es debido en gran parte a lo que se muestran las regresiones y todas estas cosas ya las hemos visto antes solo que de diferente manera en este vídeo vamos a reescribir todo esto esta definición de ccoo varianza voy a reescribir lo de manera que esto va a ser lo mismo que el valor esperado que el valor esperado y ahora vamos a multiplicar estos binomios de aquí el valor esperado de nuestra variable aleatoria x multiplicada por nuestra variable aleatoria y menos y voy a hacer la parte de x primero más x por el valor esperado de y negativo nos queda menos pongamos los con los colores correspondientes menos x por el valor esperado de y esteban verde el valor esperado de este negativo viene de este valor negativo de acá y tenemos - el valor esperado de x x menos el valor esperado de x y en verde y finalmente multiplicamos el valor esperado de x negativo por menos el valor esperado de g que nos da más el valor esperado de x por el valor esperado del metal de un poco pero creo que es importante mantener el código de colores para hacerlo más entendible por lo tanto este es el valor esperado de todo esto que está aquí el valor esperado de todo esto que está aquí adentro vamos a tratar de simplificar esto el valor esperado de un conjunto de variables aleatorias es la suma o resta de sus correspondientes valores esperados al aplicar esto en este caso todo esto va a ser igual a el valor esperado y recuerden que en algunos contextos eso lo pueden ver como la media aritmética o en una distribución continua como la probabilidad de la suma ponderada o la probabilidad de la integral ponderada todo esto lo hemos visto anteriormente vamos a reescribir esto que va a ser igual al valor esperado de las variables aleatorias x x x ye y seguimos manteniendo el código de colores después sabemos menos x por el valor esperado de g lo escribimos - el valor esperado x por el valor esperado de eje x por el valor esperado de g vamos a conservar el color y ahora tenemos menos el valor esperado de esto el valor esperado de x aquí el chiquito le escribimos el valor esperado de x x y aquí puede ser algo confuso con todos los valores esperados anidados entre sí pero una forma de verlo es que aquellas cosas que ya tenemos su valor esperado pues los podemos ver simplemente como unos números pues son números conocidos ya que el valor esperado de un valor esperado es lo mismo que el valor esperado vamos a escribir esto aquí para tenerlo siempre en mente el valor esperado del valor esperado de x va a ser igual al valor esperado de x pueden ustedes ver esto como la media de la población de la variable por lo que esto va a ser algo conocido el valor esperado de esto pues va a ser el mismo por ejemplo si la media de la población o el valor esperado fuera 5 sería lo mismo que el valor esperado de 5 pues el valor esperado de 5 a hacer 5 espero que esto haya aclarado un poco esos valores esperados anidados ya estamos por terminar lo primero que hicimos fue tomar el valor esperado de esto y después desarrollar esta multiplicación de binomios y finalmente estamos completando esta parte donde nos queda el valor esperado de todo esto de acá el valor esperado de x por el valor esperado y ahora veamos si podemos simplificar esto de acá este va a ser el valor esperado del producto de estas dos variables aleatorias y lo vamos a dejar así como está por el momento y las cosas que vamos a dejar así vamos a escribir las de nuevo acá el valor esperado de x porque y ahora que tenemos aquí tenemos el valor esperado de x por el valor esperado de pero como lo mencionamos anteriormente este va a ser un valor el valor esperado de iu así que podemos sacarlo si esto fuera el valor esperado de 3x sería lo mismo que 3 por el valor esperado de x por lo que aquí ponemos menos el valor esperado de i el valor esperado de g por el valor esperado de x valor esperado de x pueden verlo como que estamos factor izando o sacando este valor y ahora tenemos menos exactamente lo mismo acá podemos actualizar este valor esperado de xy sacarlo de esta parte de manera que nos queda menos el valor esperado de x por el valor esperado de y el valor esperado de g y trato a seguir el código de colores porque se está poniendo un poco confuso esto con todas las y finalmente pues bueno lo mismo tenemos el valor esperado de x por el valor esperado de iu y esto va a ser el producto de estos dos valores esperados más el valor esperado de x multiplicado por el valor esperado de g y que nos queda acá tenemos menos el valor esperado por el valor esperado de x menos el valor esperado de x por el valor esperado de iu y estas dos cosas son exactamente lo mismo estamos restando estos dos veces y tenemos una más todas estas tres son iguales aquí tenemos el valor esperado de g por el valor esperado de x aquí tenemos el valor esperado de 10 por el valor esperado de x sólo que en diferente orden y aquí tenemos el valor esperado de jett por el valor esperado de x igual en otro orden los restantes dos veces y los sumamos una vez o también podemos verlo como que este elemento se cancela con este otro elemento lo que nos queda es que la covarianza de estas dos variables aleatorias es igual al valor esperado voy a regresar a los colores para que quede de nuevo más claro esto x por qué el valor esperado del producto de xy menos que nos queda el valor esperado de y lo ponemos en el verde que les corresponde - el valor esperado de jeff por el valor esperado de x por el valor esperado de x y podemos calcular estos valores esperados si es que conocemos la distribución de las probabilidades las funciones de densidad para cada una de estas variables aleatorias o si tenemos toda la población que estamos mostrando de donde estamos tomando instancias de estas dos variables digamos que tenemos una muestra de estas dos variables como podríamos estimar las si las estamos estimando el valor esperado y digamos que tenemos muchos puntos de datos muchas coordenadas y veremos como esto se relaciona con la regresión y el valor esperado de x porque se puede aproximar con la media de la muestra del producto de xy la media de la muestra de xy tomamos cada una de nuestras asociaciones xy le hacemos el producto y encontramos la media de todos ellos y esto se acaba es el valor esperado de ayer que puede aproximarse por la media de la muestra de iu y el valor esperado de x puede aproximarse por la media de la muestra de x por lo tanto a que se puede aproximar la covarianza de dos variables aleatorias esto de aquí es la media del producto la media del producto de las variables de las muestras menos la media de las muestras de y la media de las muestras de g la media de las muestras de x y esto ya les debe de parecer familiar porque qué es esto este es el numerador el numerador de cuando queremos calcular la pendiente de la línea de regresión cuando queremos calcular la pendiente de la línea de regresión vamos a reescribir la fórmula aquí para poderla recordar era literalmente la media del producto de las variables aleatorias o de nuestros puntos de los datos menos la media de las veces por las medias de las x todo esto dividido entre la media de x cuadrada o incluso pueden verlo como la media de la multiplicación de las x pero por conveniencia vamos a escribirlo x cuadrada menos la media de x elevado al cuadrado y esto es como calculamos la pendiente de nuestra línea de regresión una mejor manera de ver esto es asumir en nuestra línea de regresión que los puntos que tenemos son muestras de un universo entero de puntos posibles y podemos decir que nos estamos aproximando a la pendiente de la línea de regresión este como son rarito indica que es una aproximación y podrán encontrarlo en algunos libros de texto así nos estamos aproximando a la línea de regresión de la población a partir de una muestra de este ahora de todo lo que hemos hecho hasta el momento esto de acá es la covarianza o es un estimado de la covarianza de xy y que será esto de aquí abajo bueno podemos reescribir esto muy fácilmente este denominador lo podremos reescribir como la media de x por equis que es lo mismo que x cuadrada menos la media de x por la media de x y eso lo que significa esta media de x al cuadrado bueno ustedes lo pueden ver como la covarianza x x ángeles está muy buena esto ya lo hemos visto anteriormente esto lo vimos hace ya bastantes vídeos cuando aprendimos por primera vez que era esto la convergencia de una variable aleatoria consigo mismo por lo que esto es la varianza de la variable de la historia x y eso lo pueden verificar ustedes mismos si cambian esta jr por una equis esto se convierte en x menos el valor esperado de x por x menos el valor esperado de x o x menos el valor esperado de x al cuadrado lo que es la definición de varianza por lo que otra manera de ver la pendiente de nuestra línea de regresión puede verse literalmente como la covarianza de nuestras dos variables aleatorias dividido entre la varianza de x entre la varianza de x o lo que es lo mismo la variable aleatoria independiente esto es la pendiente de nuestra línea de regresión y creo que esto es bastante interesante ver como cosas que vemos en diferentes partes de la estadística en realidad están conectadas