Cuando aprendimos sobre el coeficiente de correlación, rr, nos centramos en lo que significaba en lugar de cómo calcularlo, ya que los cálculos son largos y generalmente las computadoras los resuelven por nosotros.
Vamos a hacer lo mismo con r2r^2 y concentrarnos en cómo interpretar lo que significa.
En cierto modo, r2r^2 mide qué tanto se elimina del error de predicción al usar la regresión por mínimos cuadrados.

Predicciones sin usar regresión

Usamos la regresión lineal para predecir yy dado un valor de xx. Pero supongamos que tenemos que predecir un valor de yy sin un valor correspondiente de xx.
Sin utilizar la regresión en la variable xx, nuestra estimación más razonable sería simplemente predecir el promedio de los valores de yy.
Este es un ejemplo donde la recta de predicción es simplemente la media de los datos de yy:
Observa que esta recta no parece ajustarse muy bien a los datos. Una forma de medir el ajuste de la recta es calcular la suma de los residuos al cuadrado, esto nos da un sentido general de cuánto error de predicción tiene un modelo dado.
Así que sin la regresión por mínimos cuadrados, la suma de los cuadrados es 41.187941.1879
¿Usar la regresión por mínimos cuadrados reduciría el error en la predicción? Si es así, ¿por cuánto? ¡Veámoslo!

Predicciones con el uso de la regresión

Aquí te presentamos los mismos datos con la recta de regresión por mínimos cuadrados correspondiente y el resumen estadístico:
Ecuaciónrrr2r^2
y^=0.5x+1.5\hat{y}=0.5x+1.50.8160.8160.66590.6659
Esta recta parece ajustar los datos bastante bien, pero para medir qué tanto mejor se ajusta, podemos fijarnos otra vez en la suma de los cuadrados de los residuos:
Al usar la regresión por mínimos cuadrados se redujo la suma de los cuadrados de los residuos de 41.187941.1879 a 13.762713.7627.
Así que con la regresión por mínimos cuadrados eliminamos una cantidad considerable del error de predicción. Pero, ¿qué tanto?

La R cuadrada mide qué tanto error de predicción eliminamos

Sin usar la regresión, el modelo tenía una suma total de cuadrados de 41.187941.1879. Mediante la regresión por mínimos cuadrados se redujo a 13.762713.7627.
Por lo que la reducción total es de 41.187913.7627=27.425241.1879-13.7627=27.4252.
Podemos representar esta reducción como un porcentaje de la cantidad original del error de predicción:
41.187913.762741.1879=27.425241.187966.59%\dfrac{41.1879-13.7627}{41.1879}=\dfrac{27.4252}{41.1879}\approx66.59\%
Si te fijas más arriba, verás que r2=0.6659r^2=0.6659.
R-cuadrada nos dice qué porcentaje del error de predicción en la variable yy se elimina al usar la regresión por mínimos cuadrados en la variable xx.
Como resultado, a r2r^2 también se le llama coeficiente de determinación.
En muchas definiciones formales, r2r^2 nos dice qué porcentaje de variabilidad en la variable yy está contabilizada por la regresión en la variable xx.
Parece bastante notable que simplemente elevar rr al cuadrado nos dé esa medida. Demostrar esta relación entre rr y r2r^2 es bastante complejo y está fuera del alcance de un curso introductorio de estadística.
Cargando