Contenido principal
Tiempo actual: 0:00Duración total:6:24

Transcripción del video

tenemos aquí una simulación que fue creada por peter collins bridge usando el blog de notas para ciencias de la computación de khan academy y esta simulación fue hecha para que entendamos mejor porque dividimos entre en el -1 cuando estamos tratando de calcular la varianza muestra al inces grada cuando estamos tratando de estimar sin sesgo cuál es la verdadera varianza de la población así es que esta simulación lo que hace es primero construir una distribución de población y es una distribución aleatoria hay cada vez que obtengas una de éstas va a ser una distribución de población diferente está en particular tiene una población de 383 y después directamente a partir de cada distribución de población calcula los parámetros por ejemplo esto tiene una media de 10.9 y una variante de 25.5 y después utiliza esa misma población para sacar muestras que y saca muchas muestras de tamaño 23 45 hasta de tamaño 10 y sigue sacando muestras de ella y también calcula las estadísticas para todas esas muestras o sea a calcular las medias muestrales sesgadas y todo eso nos dice un montón de cosas y nos ayuda a tener un poco más de inclusión y bueno uno lo puede hacer clic a cada una de estas gráficas y hacer un acercamiento para poder realmente estudiar con mucho detalle cada una de estas gráficas yo ya le saqué una foto a cada una y las puse en mi blog de dibujos para que podamos realmente profundizar en la matemática y la intuición que nos están enseñando estas gráficas así es que tenemos aquí una captura de la pantalla y podemos ver que en este caso el tamaño de la población es de 529 la media es 10.6 y podemos ver por aquí tú por aquí que tenemos graficada la media de la población que es 10.6 con esta línea punteada y también tenemos que la varianza de esta población es 36.8 nos regresamos por aquí y también tenemos aquí graficada la varianza de la población que es 36.8 y esta gráfica de aquí abajo a la izquierda de hecho nos está diciendo bastantes cosas claro que hay algo en lo que quiero hacer hincapié y es el hecho de que ésta es la varianza muestral sesgada y en esta otra gráfica también estamos hablando de la varianza muestral sesgaba fijada así es que está calculando esto para cada una de nuestras muestras y es que para cada uno de los datos de nuestra muestra desde el primer dato hasta el último dato vamos a tomar ese dato le vamos a restar la media muestral vamos a elevar esta diferencia al cuadrado y después dividiendo todo esto no entre en el -1 sino entre n y esto de aquí de hecho nos muestra cosas muy interesantes por ejemplo podemos observar que aquellos casos donde subestimamos la varianza donde la varianza de la muestra es muy baja por ejemplo en estos casos y estos otros casos de aquí donde la varianza de la muestra está muy cerca de cero para la mayoría de esos casos su media muestral está bastante lejos de la verdadera media de la población aunque también lo podemos ver al revés si la media de la muestra está muy alejada de la verdadera media de la población es bastante más probable que la varianza de esa muestra este suv estimando a la verdadera varianza de la popa acción ahora otra cosa a la que le tenemos que poner atención es que entre más chicos sea el tamaño de la muestra más rosa va a ser el punto que la representa y lo mismo entre más grande sea el tamaño de la muestra más azul va a ser el punto que la representa y podemos ver por aquí en estas dos cola hay muchos más puntitos rosas mientras que la mayoría de los puntos azules se encuentran por acá y nos están dando mejores estimaciones de la media y la varianza de la población es cierto también hay algunos puntos rosas por acá que hace que esto se vea como quemas morado y que también de repente por acá podemos encontrar algunos puntos azules de pura casualidad pero por aquí en las colas básicamente tenemos puros puntitos rosas lo cual tiene mucho sentido porque si el tamaño de tu muestra es muy pequeño es muy probable que obtengas una media muestral que no sea una buena estimación de la media de la población que ella es más probable que la media de tu muestra que del lejos de la media de la población y lo mismo sucede con la varianza de la muestra es más probable que la varianza muestral sea un estimador que esté subestimando por mucho la varianza de la población ahora esta gráfica de aquí realmente nos lleva al meollo del asunto porque para cada uno de estos tamaños de muestra vamos a empezar con el tamaño de muestra dos calcula la varianza muestral sesgada entre la varianza de la población pero de muchísimas muchísimas muestras de tamaño dos reinos siguen saliendo y nos siguen saliendo muestras de tamaño voz sacamos la varianza muestral sesgada la dividimos entre la varianza real de la población sacamos la media de todos esos porcentajes que nos dio y aquí esta gráfica a nos dice que esta media es justo 50 por ciento justo un medio de la verdadera maría ansón de la población y luego para el tamaño de muestra tres hacemos lo mismo y nos queda dos terceras partes de la varianza real de la población aunque nos queda 66.666 66 por ciento de la verdad de la varianza de la población y cuando el tamaño de la muestra es cuatro nos acercamos a tres cuartas partes de la verdad de la varianza de la población si es que se nos puede ocurrir más o menos una idea de qué es lo que está sucediendo en el fondo cuando utilizamos el estimador sesgado en realidad no nos estamos acercando a la varianza de la población más bien nos estamos acercando a ene - 1 / n por la varianza de la población cuando en éstos aquí tenemos un medio de la varianza de la población un medio de la varianza de la población cuando en estrés tenemos dos tercios de la varianza de la población cuando en es cuatro tenemos tres cuartos de la varianza de la población y así no podemos seguir si es que esto nos está dando un estimador sesgado y cómo le vamos a hacer para quitarle el sesgo bueno pues si realmente queremos obtener el mejor estimador de la verdadera alianza de la población en lugar de obtener en menos uno / n por la varianza de la población pues queremos multiplicar por n entré en el -1 queremos multiplicar por n entré en el -1 y estamos multiplicando por esto para obtener un estimador 15 juzgado que entonces en el -1 se cancela con el -1 n se cancela con n y nos queda la varianza de la población que es justo lo que queremos estimar ahora de este lado en él se cancela con n inof queda el estimador in sesgado de la varianza de la población o sea la varianza muestral inces gada que es igual y esto es lo que hemos visto en los últimos vídeos y lo que te vas a encontrar en los libros algunas veces es confuso el porqué pero con un poco de suerte esta simulación de peter te ayuda a entender por qué si tiene que ser este el estimador de la varianza y sesgado y aquí queremos dividir entre -1 y key