If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

La desviación estándar de residuos o la raíz del error cuadrático medio (ECM)

La desviación estándar de los residuos es una medida de qué tan bien se ajusta a los datos una recta de regresión. Es también conocida como el error cuadrático medio.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

nos interesa estudiar la relación entre la cantidad de tiempo que la gente estudia para un examen y el puntaje que obtiene en ese examen donde el puntaje va desde 0 hasta 6 y lo que vamos a hacer es graficar para cada una de las personas que tomaron la prueba la cantidad de horas que estudiaron y su puntaje por ejemplo este punto corresponde a alguien que estudio una hora y obtuvo un 1 en la prueba y luego vamos a ajustar una recta de regresión esta recta de regresión azul es la recta de regresión correspondiente a estos cuatro puntos y aquí está su ecuación ahora hay un par de cosas que hay que tener en cuenta normalmente cuando se hace este tipo de análisis se hace con más de cuatro datos la razón por la que mantuve esto en 4 es porque en realidad vamos a calcular a mano que también se ajusta esta recta de regresión normalmente no lo haría a mano tenemos computadoras para eso ahora la forma en que vamos a medir que también se ajusta esta recta de regresión a los datos tiene varios nombres un nombre es la desviación estándar de los residuos otro nombre es la raíz de la desviación cuadrada media abre rms de por sus siglas en inglés a veces también llamado error cuadrática medio así que lo que vamos a hacer es para cada punto calcular el residuo el cual vamos a elevar al cuadrado tomaremos la suma de los residuos al cuadrado y eso lo dividiremos entre la cantidad de puntos de datos que tenemos menos 2 en futuros vídeos o en una clase de estadística más avanzada podremos hablar de por qué se divide entre n menos 2 pero está relacionado con la idea de que lo que estamos calculando aquí es un estadístico que nos permite estimar un parámetro verdadero de la mejor manera posible en m2 realmente funciona pero para calcular la raíz de la desviación cuadrática media tomaríamos la raíz cuadrada de esto y algunos de ustedes podrían reconocer fuertes semejanzas entre esto y la forma en que calculamos la desviación estándar de la muestra que vimos en los primeros vídeos de estadística les invito a pensar en ello pero calculemos lo a manu para ver cómo se desarrollan las cosas entonces para hacer eso voy a hacer una pequeña tabla que pondremos el valor x en esta columna aquí el valor yen y en esta columna estará allí el sombrero que es igual a 2.5 x menos 2 en esta columna pondremos el cuadrado del residual que será nuestro valor y menos nuestro valor de sombrero el valor real menos la estimación para una equis dada al cuadrado y luego lo sumaremos todos dividiremos entre en m2 y sacaremos la raíz cuadrada así que primero hagamos este punto es el punto 11 ahora cuál es la estimación de nuestra recta de regresión bueno parece valor de x cuando x es igual a 1 será 2.5 por uno menos 2 que es igual a 0.5 y entonces nuestro residual al cuadrado será un 10.5 al cuadrado que es igual a 0.5 al cuadrado que es 0.25 muy bien vayamos al siguiente punto este es 22 ahora nuestra estimación de la recta de regresión cuando x es igual a 2 va a ser igual a 2.5 por el valor de x por 2 menos dos que va a ser igual a tres y entonces nuestro residual al cuadrado va a ser menos 32 menos tres al cuadrado que es menos 1 al cuadrado que va a ser igual a 1 ahora podemos ir a este punto que es el punto 23 y nuestra estimación de la recta de regresión será 2.5 por el valor x x 2 menos 2 que será igual a 3 y por lo tanto nuestro residuo aquí será 0 y puedes ver que ese punto se encuentra sobre la recta de regresión entonces será 3 menos 3 al cuadrado que es igual a 0 y por último pero no menos importante tenemos este punto justo aquí cuando x es igual a 3 para el valor vemos que esta persona estudio tres horas y obtuvo un 6 en la prueba y la estimación sobre la recta de regresión es 2.5 por el valor x 3 menos 2 es igual a 5.5 y por lo tanto nuestro residual al cuadrado es 6 menos 5.5 al cuadrado menos 5.5 al cuadrado que es 0.5 al cuadrado que es 0.25 así que ahora el siguiente paso es hacer la suma de todos estos residuales al cuadrado si sumo todo esto será 1 punto y luego lo divido entre n 2 eso será igual a tengo 4 puntos de datos voy a dividir entre 4 2 así que voy a dividir entre 2 y luego voy a sacar la raíz cuadrada de esto y nos va a dar 1.5 entre 2 es lo mismo que tres cuartos por lo que es la raíz cuadrada de tres cuartos o la raíz cuadrada de tres entre dos y podrías usar una calculadora para encontrar esto en notación decimal pero esto nos da una idea de que también se ajusta esta recta de regresión cuanto más cerca esté de cero mejor será el ajuste de la recta de regresión cuanto más lejos de cero peor será el ajuste y cuáles son las unidades para la raíz de la desviación cuadrática media bueno estar en términos de cualesquiera que sean las unidades para el eje y en este caso será el puntaje en la prueba y esta es otra de las ventajas de este cálculo de calcular la raíz cuadrada de la suma de los cuadrados de los residuos dividido entre n 2 en general esta raíz cuadrada de 3 entre 2 se puede ver como el tamaño aproximado del error de predicción típico o entre estos puntos y el valor estimado en la recta de regresión o podrías verlo como el tamaño aproximado de un error típico o promedio residual