If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

R cuadrada o coeficiente de determinación

R cuadrada o coeficiente de determinación. Creado por Sal Khan.

¿Quieres unirte a la conversación?

Sin publicaciones aún.
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

en los últimos vídeos hemos visto que si tenemos n puntos cada uno de los cuales tiene coordenadas x y déjame dibujar n de estos puntos y tenemos el primero de esos puntos de coordenadas x 1 es una coma deja poner un 1 x 1,1 aquí estaría el segundo punto de coordenadas x 2,2 y seguimos agregando puntos hasta que eventualmente llegamos al enésimo punto de coordenadas x n coma tiene y vimos que a través de estos puntos podemos encontrar una recta que minimiza el cuadrado de la distancia esta es la recta la voy a llamar de igual a mx de esta recta es tal que minimice el cuadro de las distancias a los puntos revisemos qué son esos cuadrados de las distancias también llamados el cuadro del error así este es el error entre la recta y el punto uno el cual llamó error 1 este es el error entre la línea y el punto 2 le llamo error 2 este es el error entre la recta y el punto n ahora si queremos el error total si queremos el cuadrado del error total y ahí fue donde se inició esta discusión el cuadrado del error entre los puntos y la recta para calcular esto prácticamente tomas el valor de cada punto así por ejemplo para este punto tomaríamos el valor de de uno menos el valor de y sobre la recta y ese valor de ye sobre la recta lo vamos a obtener al sustituir el valor de x en esta ecuación entonces sustituyendo ese valor de x vamos tener menos mx1 más ve este es el valor que estimamos de y sobre esta recta este s mx1 más no no quiero que se me siguen muchas cosas en mi gráfica lo voy a borrar así este es el error 1 este es el error 1 y lo que queremos el cual los errores entre cada punto y la recta tenemos entonces aquí el cuadrado el error 1 hacemos lo mismo para el segundo punto y así fue como empezó nuestra discusión sería de 2 - mx2 más b elevado al cuadrado más puntos suspensivos para indicar que hay un montón de puntos en el ínter más tiene menos m x n más b elevado al cuadrado y ahora que de hecho sabemos cómo calcular esta m y esta vez te mostré la fórmula más aún probamos la fórmula podemos ahora encontrar esta recta y podemos preguntarnos bueno cuánto es el error que haya y lo podemos calcular pues conocemos m&b así que podemos calcularlo para cierto conjunto d y ahora lo que quiero hacer es llegar a una estimación que haga más sentido acerca de que también se ajusta esta recta en relación al conjunto de datos y para esto podemos plantearnos la siguiente pregunta cuánto cuánto o más bien qué porcentaje de la variación qué porcentaje de la variación en qué está descrita está descrita por la variación está descrita por la variación en x pensemos en esto cuanto de la variación en que hay variación en llegue aquí hay un valor de y acá tenemos otro valor de por acá otro valor de y entonces hay mucha variación en que eso es claro pero cuánto de esa variación está descrita por equis o descrita por la línea así que pensemos en eso cuánto es la variación total de y cuánto es la variación total de y calculemos la entonces básicamente una herramienta para medir la variación total eni cuando pensamos acerca de variación lo cual también es verdadero cuando pensamos acerca de la varianza la cual es la variación promedio en g y si pensamos en el cuadro de la distancia a partir de una medida central y la mejor medida de tendencia central que tenemos es la media aritmética podríamos decir que la variación total eni es simplemente la suma de las distancias de cada una de las diez a su media entonces va a ser la primera la primera está 10 hacerlo en otro color va a ser la primera que es que uno es que uno menos la media del ayer que es tierra ya elevado al cuadrado más la siguiente que es de 2 menos el promedio de la ye se eleva al cuadrado más así sucesivamente hasta que llegamos a la última que es tiene menos el promedio del hay es elevado al cuadrado y esto nos va a dar la variación total en que si tomamos los valores de iu y encontramos su promedio no sé quizás un valor que esté por aquí pongámoslo por aquí aquí está el valor promedio de james raya podemos inclusive visualizarlo como hicimos para visualizar el error con respecto a la recta supongamos entonces que esta es la recta ubicada en el promedio de y la cual se vería así y lo que estamos midiendo aquí este error aquí es el cuadrado de la distancia vertical entre este punto y la recta para el segundo valor esta sería la distancia desde el punto hasta la línea para el enésimo punto sería la distancia desde ahí hasta la red y en el ínter tendríamos muchísimos otros puntos esta es la variación total en ese sentido porque si dividimos esta variación total en i / n vamos a obtener lo que se asocia típicamente con la varianza de ella que es el promedio de las distancias al cuadrado lo que obtuvimos aquí es el total de la distancia al cuadrado ahora lo que queremos ver es que tanto de la variación total eni está descrita por la variación en x quizá lo podemos ver de esta manera nuestro denominador queremos el porcentaje con respecto al total de la variación en déjame escribirlo de la siguiente manera debo llamar a esto el cuadrado del error con respecto al promedio esto va a ser el cuadrado del error con respecto a voy a llamarlo con respecto a la media con respecto a la media de la cual va a ser la variación total en que así nuestro nominador va a ser la variación total en ye es decir el cuadro del error con respecto a la media de y el cuadro del error con respecto a la media de y ahora lo que queremos saber es qué porcentaje de esto está descrito por la variación en x pero qué es lo que no está descrito por la variación en x queremos saber qué tanto está descrito por la variación en x pero qué tal si queremos cuánto no cuanto del error es decir de la variación total cuanto de la variación total no está no está descrita por por esta recta de aquí x recta por la recta de regresión bueno eso ya lo hicimos tenemos el cuadro del error de la recta lo cual nos da el cuadrado de las distancias de cada punto con respecto a la recta es la medida que queremos nos da cuánto de la variación total no está descrita por la recta de regresión por tanto si queremos saber qué porcentaje el total de la variación no está descrita por la recta de regresión esto estaría dado por el cuadrado del error con respecto a la recta porque esta es la variación total no descrita por la recta regresión dividida entre la variación total el cuadro el error con respecto a la media déjame plantearlo claramente esto de aquí esto de aquí establece establece qué qué porcentaje de la variación qué porcentaje de la variación total no está descrita x la variación por la variación en x o por la variación la recta de regresión así que para contestar a la pregunta qué porcentaje está descrita por la variación bueno lo que quede aquí es lo que tiene que estar descrito por la variación en x porque la pregunta aquí es qué porcentaje de la variación en i está descrita por la variación en x y aquí tenemos el porcentaje que no está descrito por la variación en x así que si este número es 30% si 30% de la variación en lleno está descrita por la recta entonces lo que sobre será la variación descrita por la recta básicamente los restamos de 1 así es que si tomamos 1 - el cuadro el error de nuestros puntos con respecto a la recta sobre el cuadro del error de los valores de y con respecto a la media de y lo que tenemos aquí ahora es lo que nos dice esto es qué porcentaje de la variación total qué porcentaje la variación total está descrita está descrita por la recta está descrita por la red de regresión o por la variación por la variación en x y este número de aquí se llama coeficiente de determinación coeficiente de determinación así es como lo ha nombrado los estadísticos coeficiente de determinación coeficiente determinación también es conocido por ere cuadrada este término lo has de haber oído cuando la gente habla de regresión pensemos ahora en esto si el cuadro del error con respecto a la recta es realmente pequeño si el cuadro el error con respecto a la recta es pequeño significa que estos errores estos errores que tenemos aquí este error de acá este error de acá son pequeños significa que este errores son pequeños y que esta recta la recta regresión es en realidad un buen ajuste deje de ponerlo acá abajo si el cuadrado del error con respecto a la recta es pequeño si el quad el error con respecto a la recta es pequeño significa que la recta es un buen ajuste para qué pasa aquí si el cuadrado del error con respecto a la recta es pequeño esta fracción es pequeña y 1 - esta fracción pequeña va a ser un número cercano a 1 así entonces tenemos que r cuadrada está cerca de 1 lo cual quiere decir que la mayor parte de la variación en que está descrita por la variación en x y hace sentido porque la línea es un buen ajuste tomemos el caso contrario qué pasa si el cuadro del error con respecto a la recta es grande quiere decir que nuestros puntos están muy separados con respecto a la recta es muy grande este error y entonces este número que tenemos aquí va a ser un número muy cercano a 1 cuando le restamos un número muy cercano a 1 a 1 vamos a obtener un número cercano a 0 entonces si el cuadrado el error con respecto a la recta es grandes y el cual el error con respecto a la recta es grande tenemos que este número es cercano a 11 menos un número cercano a 1 nos va a dar un número cercano a 0 es decir el coeficiente de terminación es re cuadrada va a estar cerca de 0 y en ese sentido esto nos dice que muy poco en la variación en lleva a estar descrita por la variación en x o por la recta el fin lo que he visto hasta ahorita ha sido un poco abstracto en el siguiente vídeo trabajaremos con muestras de datos calcularemos la recta regresión también calcularemos el valor de re cuadrada y veremos qué tan bueno es el ajuste