If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Simulación que muestra el sesgo en la varianza muestral

Simulación realizada por Peter Collingridge que nos ayuda a comprender por qué dividimos entre (n-1) en el cálculo de la varianza muestral insesgada. La simulación está disponible en: http://www.khanacademy.org/cs/challenge-unbiased-estimate-of-population-variance/1169428428. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

tenemos aquí una simulación que fue creada por peter calling reach usando el bloc de notas para ciencias de la computación de khan academy y esta simulación fue hecha para que entendamos mejor por qué dividimos entre n menos 1 cuando estamos tratando de calcular la varianza muestral in sesgada porque cuando estamos tratando de estimar sin sesgo cuál es la verdadera varianza de la población así es que esta simulación lo que hace es primero construir una distribución de población y es una distribución aleatoria lo que hay cada vez que obtengas una de estas va a ser una distribución de población diferente esta en particular tiene una población de 383 y después directamente a partir de cada distribución de población calcula los parámetros por ejemplo esta tiene una media de 10.9 y una varianza de 25.5 después utiliza esa misma población para sacar muestras porque yo saca muchas muestras de tamaño 2 3 4 5 hasta de tamaño 10 y sigue sacando muestras de ella y también calcula las estadísticas para todas esas muestras o sea calcula las medias muestrales sesgadas y todo eso nos dice un montón de cosas y nos ayuda a tener un poco más de intuición y bueno uno le puede hacer clic a cada una de estas gráficas y hacer un acercamiento para poder realmente estudiar con mucho detalle cada una de estas gráficas yo ya les saque una foto a cada una y las puse en mi blog de dibujos para que podamos realmente profundizar en la matemática y la intuición que nos están enseñando estas gráficas así es que tenemos aquí una captura de la pantalla y podemos ver que en este caso el tamaño de la población es de 529 media 10.6 y podemos ver por aquí por aquí que tenemos gráfica da la media de la población que es 10.6 con esta línea punteada y también tenemos que la varianza de esta población es 36.8 nos regresamos por aquí y también tenemos aquí gráfica da la varianza de la población que es 36.8 y esta gráfica de aquí abajo a la izquierda de hecho nos está diciendo bastantes cosas claro que hay algo en lo que quiero hacer hincapié y es el hecho de que esta es la varianza muestral sesgada y en esta otra gráfica también estamos hablando de la varianza muestral sesgada sesgada así es que está calculando esto para cada una de nuestras muestras así es que para cada uno de los datos de nuestra muestra desde el primer dato hasta el último dato vamos a tomar ese dato le vamos a restar la media muestral vamos a elevar esta diferencia al cuadrado y después dividiendo todo esto no entre en menos uno sino entre n y esto de aquí de hecho nos muestra cosas muy interesantes por ejemplo podemos observar que aquellos casos donde subestimamos la varianza donde la varianza de la muestra es muy baja por ejemplo en estos casos y estos otros casos de aquí donde la varianza de la muestra está muy cerca de cero para la mayoría de esos casos su media muestral está bastante lejos de la verdadera media de la población aunque también lo podemos ver al revés si la media de la muestra está muy alejada de la verdadera media de la población es bastante más probable que la varianza de esa muestra esté subestimando a la verdadera varianza de la población ahora otra cosa a la que le tenemos que poner atención es que entre más chico sea el tamaño de la muestra más rosa va a ser el punto que la representa y lo mismo entre más grande sea el tamaño de la muestra más azul va a ser el punto que la representa y podemos ver por aquí en estas dos colas hay muchos más puntitos rosas mientras que la mayoría de los puntos azules se encuentran por acá y nos están dando mejores estimaciones de la media y la varianza de la población es cierto también hay algunos puntos rosas por acá que hace que esto se vea como que más morado y que también de repente por acá podemos encontrar alguna puntos azules de pura casualidad pero por aquí en las colas básicamente tenemos puros puntitos rosas lo cual tiene mucho sentido porque si el tamaño de tu muestra es muy pequeño es muy probable que obtengas una media muestral que no sea una buena estimación de la media de la población porque es más probable que la media de tu muestra quede lejos de la media de la población y lo mismo sucede con la varianza de la muestra es más probable que la varianza muestral sea un estimador que estés subestimando por mucho la varianza de la población ahora esta gráfica de aquí realmente nos lleva al meollo del asunto porque porque para cada uno de estos tamaños de muestra vamos a empezar con el tamaño de muestra 2 calcula la varianza muestral sesgada entre la varianza de la población pero de muchísimas muchísimas muestras de tamaño 2 que nos siguen saliendo y nos siguen saliendo muestras de tamaño 2 sacamos la varianza muestral sesgada la dividimos entre la varianza real de la población sacamos la media de todos esos porcentajes que nos dio y aquí esta gráfica nos dice que esa media es justo 50% aquello es justo un medio de la verdadera varianza de la población y luego para el tamaño de muestra 3 hacemos lo mismo y nos queda dos terceras partes de la varianza real de la población porque nos queda 66.666 66 por ciento de la verdadera varianza de la población y cuando el tamaño de la muestra es 4 nos acercamos a tres cuartas partes de la verdad de la varianza de la población si es que se nos puede ocurrir más o menos una idea de qué es lo que está sucediendo en el fondo utilizamos el estimador sesgado en realidad no nos estamos acercando a la varianza de la población más bien nos estamos acercando a n 1 / n por la varianza de la población cuando n es 2 aquí tenemos un medio de la varianza de la población por un medio de la varianza de la población cuando en estrés tenemos dos tercios de la varianza de la población cuando n es cuatro tenemos tres cuartos de la varianza de la población y así nos podemos seguir así es que esto nos está dando un estimador sesgado y como le vamos a hacer para quitarle el sesgo bueno pues si realmente queremos obtener el mejor estimador de la verdadera varianza de la población en lugar de obtener n menos uno entre n por la varianza de la población pues queremos multiplicar por n entre n menos 1 queremos multiplicar por n / n 1 y estamos multiplicando por esto para obtener un estimador yn sesgado que entonces n menos uno se cancela con n menos uno n se cancela con n y nos queda la varianza de la población que es justo lo que queremos estimar ahora de este lado n se cancela con n y nos queda el estimador integrado de la varianza de la población o sea la varianza muestral en sesgada que es igual y esto es lo que hemos visto en los últimos vídeos y lo que te vas a encontrar en los libros a algunas veces es confuso el porqué pero con un poco de suerte esta simulación de peter te ayuda a entender por qué si tiene que ser este el estimador de la varianza en sesgado aquí queremos dividir entre n menos uno por gay