If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Por qué dividimos entre n - 1 en la varianza

Otra visualización que proporciona evidencia de que al dividir entre n-1 realmente se obtiene una estimación insesgada de la varianza de la población. Simulación disponible en: http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

aquí tenemos una simulación creada por un usuario de khan academy llamado justine gates que sirve para ayudarnos a comprender el porqué dividir entre n menos 1 nos da un estimado in sesgado de la varianza de la población cuando tratamos de calcular la varianza de la muestra esta población tiene una distribución plana de probabilidad de 0 a 200 luego comenzamos a muestrear a la población y vamos a usar muestras de tamaño de 50 y lo que vamos a hacer es que para cada una de esas muestras calculamos la varianza con base en la división entre n luego entre n menos 1 y luego entre n menos 2 conforme seguimos generando más muestras y calculamos la media de cada una de las variantes que calculamos de manera diferente veremos hacia donde convergen esas medias aquí hay una muestra aquí hay otra muestra si hago clic puedo agregar muestras continuamente y vemos que ocurre algo interesante cuando dividimos entre n tenemos que la varianza de la muestra a pesar de calcular la media de muchísimas varianzas de la muestra se sigue subestimando la varianza real cuando dividimos entre n menos 1 veo que obtengo un muy buen estimado la media de las varianzas converge hacia la varianza real cuando divido entre n menos 2 está muy claro que sobre estimamos la media de la varianza de las muestras con respecto a la varianza real esto nos da una muy buena visión del por que lo mejor es dividir entre n menos 1 aquí tenemos otra forma interesante de visualizarlo en este eje horizontal comparamos cada gráfica de nuestras muestras y mientras se encuentren más a la derecha significa que tanto sobrepasa la media de la media verdadera y mientras más a la izquierda significa que tanto está por debajo de la media verdadera si vemos la muestra que está hasta la extrema derecha es la media de la muestra que sobrepasa más su valor al de la media verdadera muestra que está más a la izquierda es la media de la muestra que está más por debajo de la media verdadera y está de en medio está un poquitito por arriba de la media en el eje vertical cuando usamos n como denominador calculamos dos varianzas diferentes con una varianza usamos la media de la muestra y con la otra varianza usamos la media de la población y en el eje vertical comparamos la diferencia entre la media que calculamos usando la media de la muestra y la media que calculamos con la media de la población por ejemplo este punto de aquí abajo a la izquierda cuando calculamos la media con la media de la muestra que es lo que hacemos normalmente subestimamos significativamente lo que hubiera sido la media si supiéramos cuál es la media de la población y la hubiéramos calculado de esa manera así obtenemos esta forma interesante sobre la cual nos recomiendan reflexionar por qué se da esta forma y qué significa otra cosa interesante es que cuando la vemos de esta forma es muy claro que toda esta gráfica se encuentra por debajo del eje horizontal por lo que siempre que calculamos la varianza de la muestra usando esta forma cuando usamos la media de la muestra que es lo que siempre hacemos siempre obtendremos una varianza menor que la varianza que obtenemos al usar la media de la población en cambio aquí cuando dividimos entre n menos 1 no siempre la subestimamos a veces la sobra estimamos y al tomar la media de todas estas varianzas convencemos hacia la verdadera y aquí abajo la sobre estimamos con mayor frecuencia y para dejar claro a qué nos referimos con estas gráficas copiamos la pantalla para verla con mayor detalle en esta gráfica esta distancia vertical significa que cada una de estas muestras se calcularon usando la varianza de la muestra usando la media de la muestra y en este caso usamos n en nuestro denominador es este caso de aquí y a este le restamos una pseudo varianza de la muestra que tendríamos si de alguna forma conociéramos la media de la población esto no es algo que veamos con frecuencia en estadística pero es una medida de que tanto subestimamos nuestra varianza de la muestra dado que no tenemos la media verdadera de la población a nuestra disposición esto es esta distancia y pueden ver que siempre estamos subestimando aquí abajo sobre estimamos un poco y también subestimamos pero cuando tomamos la media o las promediamos todas convergen hacia el valor real aquí dividimos entre n menos uno y aquí abajo dividimos entre n menos 2