Contenido principal
Estadística avanzada (AP Statistics)
Curso: Estadística avanzada (AP Statistics) > Unidad 5
Lección 4: Evaluar el ajuste en la regresión por mínimos cuadrados- Gráficas de residuos
- Gráficas de residuos
- Ideas intuitivas detrás de la R cuadrada
- R cuadrada o coeficiente de determinación
- La desviación estándar de residuos o la raíz del error cuadrático medio (ECM)
- Interpretar datos de regresión por computadora
- Interpretar los resultados de una regresión obtenidos por computadora
- El impacto de eliminar valores atípicos en las rectas de regresión
- Puntos influyentes en la regresión
- Efectos de los puntos influyentes
- Identificar puntos influyentes
© 2023 Khan AcademyTérminos de usoPolítica de privacidadAviso de cookies
Puntos influyentes en la regresión
Los valores atípicos y los puntos de apalancamiento pueden ser influyentes en diferentes mediciones de la regresión por mínimos cuadrados como la pendiente, la ordenada al origen y el coeficiente de correlación (r). Creado por Sal Khan.
¿Quieres unirte a la conversación?
Sin publicaciones aún.
Transcripción del video
¡Auch! Estoy seguro que esta mañana me desgarré el
músculo de la pantorrilla mientras corría con mi hijo. Pero las matemáticas no deben parar, ja, ja,
ja, así que estoy aquí para que pensemos en lo que llamamos puntos influyentes cuando pensamos en
regresiones. Y para ayudarnos tenemos por aquí esta herramienta tomada desde el sitio web
bfwpub.com, y te invito a que vayas al sitio web y utilices por tu cuenta esta herramienta, la
cual nos permite dibujar algunos puntos. Así que vamos a dibujar algunos puntos por aquí, y después
vamos a ajustar una recta de mínimos cuadrados. Esta es la recta de mínimos cuadrados
por aquí. Puedes ver que la recta, así como su coeficiente de correlación -el cual
es bastante bueno-, es de 0.8803, muy cercano a 1, así que tenemos un ajuste bastante bueno
por aquí. Pero vamos a pensar en los puntos que podrían influir o podrían ser demasiado
influyentes en cuanto a las características de esta línea de regresión. Se denomina valor
atípico a un tipo de punto influyente. Una buena forma de identificar un valor atípico
es que se ajusta muy mal a la recta o, dicho de otra manera, tiene un residuo
muy grande. Si ponemos un punto por aquí, tendremos un valor atípico, y ¿qué pasa cuando
tenemos un valor atípico como este? Bueno, antes teníamos un coeficiente de correlación de
0.8 y algo, pero al poner un valor atípico como este -y observa, es un punto entre 16-, disminuye
drásticamente el coeficiente de correlación, ya que aquí tenemos un residuo muy grande, así
que un valor atípico como este ha influido mucho en el coeficiente de correlación. Puedes ver que
no impacta demasiado la pendiente de la recta, sólo un poco -de hecho, cuando lo puse aquí
casi no impactó la pendiente de la recta-, sí impacta un poco la intersección con el eje
y, y observa que si ponemos el punto por aquí no impacta en casi nada la intersección con el
eje y, y cuando lo ponemos por aquí -un poco más a la izquierda- impacta un poco más. Pero estos
valores atípicos que están cerca del valor de la media de x parecen ser más relevantes en términos
del impacto, o más influyentes en términos del coeficiente de correlación. Ahora, ¿qué hay de un
valor atípico que esté muy lejos del valor de la media de x? Y un punto cuyo valor x esté muy lejos
del valor de la media de x se considera un punto de gran apalancamiento. Podemos pensarlo así:
imaginemos que esto es una especie de balancín que de alguna manera gira sobre el valor de la
media de x; ahora bien, si ponemos un punto aquí, parece que está bajando, es como si alguien
estuviera sentado en este extremo del balancín y de ahí creo que es de donde proviene el término
apalancamiento. Podemos ver que cuando agregamos un valor atípico de gran apalancamiento por aquí,
entonces suceden muchas cosas: definitivamente baja el coeficiente de correlación, cambia la
pendiente y cambia la intersección con el eje y. Entonces, hace muchas cosas, por eso influye
demasiado en todo lo que acabamos de mencionar. Y si tenemos un punto de gran apalancamiento que
quizás sea un poco menos atípico -algo como esto-, con base en los puntos que tenemos, no afecta
tanto el coeficiente de correlación, de hecho, en este ejemplo, lo mejora, pero sí cambian un poco
en la pendiente y la intersección con el eje y. Aunque obviamente no es un cambio tan drástico
como cuando hacemos algo de este estilo, y esto además disminuye el coeficiente de correlación.
Ahora, veamos qué pasa si hacemos cosas por aquí: si tenemos un valor atípico de gran apalancamiento
por aquí, podemos ver algo similar, parece que un valor atípico de gran apalancamiento influye en
todo, y si es un punto de gran apalancamiento, que es menos atípico, una vez más podemos ver
que mejora el coeficiente de correlación. Podemos decir que persiste su influencia en el coeficiente
de correlación: en este caso lo está mejorando, pero influye menos en términos de la pendiente y
la intersección y, aunque aún está haciendo una diferencia por aquí. Entonces te invito a que
juegues con esto y pienses en los diferentes puntos que podemos agregar. ¿Qué tan lejos
están del valor de la media de x? ¿Qué tamaño tiene su residuo? ¿Son un valor atípico? Y,
sobre todo, ¿qué tan influyentes son para las diversas características de una recta de mínimos
cuadrados: la pendiente, la intersección con el eje y o el coeficiente de correlación? Y, claro,
cuando hablamos del coeficiente de correlación -también conocido como valor r- hablamos,
por supuesto, de la raíz cuadrada de r².