Contenido principal
Tiempo actual: 0:00Duración total:4:46

Transcripción del video

aquí tenemos una simulación creada por un usuario de khan academy llamado justine hertz que sirve para ayudarnos a comprender el porqué dividir entre el -1 nos da un estimado inces gado de la varianza de la población cuando tratamos de calcular la varianza de la muestra esta población tiene una distribución plana de probabilidad de 0 a 200 luego comenzamos a muestrear a la población y vamos a usar muestras de tamaño de 50 y lo que vamos a hacer es que para cada una de esas muestras calculamos la varianza con base en la división entre n luego entre menos uno y luego entré en menos conforme seguimos generando más muestras y calculamos la media de cada una de las varias que calculamos de manera diferente veremos hacia donde convergen esas medias aquí hay una muestra aquí hay otra muestra si hago clic puedo agregar muestras continuamente y veremos qué ocurre algo interesante cuando dividimos entre n tenemos que la varianza de la muestra a pesar de calcular la media de muchísimas variantes de la muestra se sigue subestimando la varianza real cuando dividimos entre -1 y veo que obtengo un muy buen ha estimado la media de las variantes convergen hacia la varianza real cuando dividido entre -2 y está muy claro que sobreestimamos la media de la varianza de las muestras con respecto a la varianza real esto nos da una muy buena visión de él porque lo mejor es dividir entre en menos zona aquí tenemos otra forma interesante de visualizarlo en este eje horizontal comparamos cada gráfica de nuestras muestras y mientras se encuentre más a la derecha significa que tanto sobrepasa la media de la media verdad y mientras más a la izquierda significa que tanto está por debajo de la media verdad si damos la muestra que está hasta la extrema derecha es la media de la muestra que sobrepasa más su valor al de la media verdadera y la muestra que está más a la izquierda es la media de la muestra que está más por debajo de la media verdadera y está de medio está un poquito por arriba de la media en el eje vertical cuando usamos n como denominador calculamos dos variantes diferentes con una variante a usamos la media de la muestra y con la otra variante usamos la media de la población y en el eje vertical comparamos la diferencia entre la media que calculamos usando la media de la muestra y la media que calculamos con la media de la población por ejemplo este punto de aquí abajo a la izquierda cuando calculamos la media con la media de la muestra que es lo que hacemos normalmente subestimamos significativamente lo que hubiera sido la media si supiéramos cuales la media de la población y la hubiéramos calculado de esa manera así obtenemos esta forma interesante sobre la cual nos recomiendan reflexionar por qué se da esta forma y que significa otra cosa interesante es que cuando la vemos de esta forma es muy claro que toda esta gráfica se encuentra por debajo del eje horizontal por lo que siempre que calculamos la varianza de la muestra usando esta forma cuando usamos la media de la muestra que es lo que siempre hacemos siempre obtendremos una variante menor que la varianza que obtenemos al usar la media de la población en cambio aquí cuando dividimos entre menos uno no siempre la subestimamos a veces la sobreestimamos y al tomar la media de todas estas variantes comeremos hacia la verdadera y aquí abajo la sobreestimamos con mayor frecuencia y para dejar claro a qué nos referimos con estas gráficas copiamos la pantalla para verla con mayor detalle en esta gráfica esta distancia vertical significa que cada una de estas muestras se calcularon usando la varianza de la muestra usando la media de la muestra y en este caso usamos n en nuestro denominador que es este caso de aquí y á éste le restamos una pseudo varianza de la muestra que tendríamos si una forma conociéramos la media de la población esto no es algo que veamos con frecuencia en estadística pero es una medida de que tanto subestimamos nuestra varianza de la muestra dado que no tenemos la media verdadera de la población a nuestra disposición esto es esta distancia y pueden ver que siempre estamos subestimando aquí abajo sobreestimamos un poco y también subestimamos pero cuando tomamos la media o las promediamos todas convergen hacia el valor real aquí dividimos entre -1 y aquí abajo dividimos entre el -2