If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Repaso intuitivo de por qué dividimos entre n-1 para la varianza muestral insesgada

Revisión de la media de la población, media muestral, varianza de la población, la varianza muestral y la construcción de una intuición acerca de por qué dividimos entre n-1 para la varianza muestral insesgada. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

lo que quiero hacer en este vídeo es revisar algo de lo cual ya hemos hablado con anterioridad y espero que esto te permita desarrollar la intuición de por qué dividimos entre n menos 1 si lo que deseamos es tener un estimador in sesgado de la varianza poblacional cuando estamos calculando la varianza muestral consideremos entonces una población supongamos que esta es la población y es una población de tamaño n mayúscula y también tenemos una muestra de esa población una muestra de esa población cuyo tamaño es n minúscula es decir tenemos n datos consideremos ahora todos los parámetros y estadísticos con los que hemos venido trabajando el primero es el concepto de la media la media si estamos tratando de calcular la media para la población va a ser esta un parámetro o un estadístico bueno si estamos tratando de calcular la media para la población estamos calculando un parámetro estamos calculando un parámetro déjame escribir esto por aquí a la población para la población estamos calculando un parámetro para la población es parámetro si lo estamos calculando para la muestra para la muestra estamos calculando el estadístico estadístico entonces como calculamos la media para la población bien para empezar lo denotamos con la letra griega new y básicamente tomamos todos los datos en nuestra población tomamos la suma de todos los datos empezando con el primer dato y terminando con el enésimo dato así que todos y cada uno de los datos los sumamos empezamos con el dato x 1 x 2 así hasta llegamos al x n y dividimos esta suma entre el número total de datos n ahora cómo calculamos la media de la muestra bien para la media muestral hacemos algo similar pero ahora para la muestra la denotamos con una x con una raya encima y se le conoce como x raya para calcular esta tomamos todos los puntos de la muestra por lo cual el límite superior de la suma es n minúscula los sumamos sumamos todos los valores de nuestra muestra y lo dividimos entre el número de datos que se tiene en la muestra ahora el otro valor que vamos a intentar calcular para la población por lo cual va a ser un parámetro y que también vamos a calcularlo para la muestra con un estimado del valor de la población es la varianza la cual es una medida de dispersión o una medida de que tanto varían los datos con respecto a la media escribamos la varianza la varianza y como denotamos y calculamos la varianza para una población bien para la población decimos que la varianza y vamos a usar la letra griega sigma elevado al cuadrado y éste es igual podemos considerar la varianza como el promedio de las distancias al cuadrado con respecto a la media poblacional y lo que hacemos es para cada dato empezando desde 1 y acabando en n para cada dato le vamos a restar la media le vamos a restar la media por lo cual tendría que haber calculado la media primero vamos a ver que hay otra manera de hacerlo directamente pero bueno lo más fácil es calcular primero la media y a partir de ahí obtener este valor entonces a cada dato le restamos el valor de la media lo elevamos al cuadrado elevamos al cuadro la diferencia hacemos la suma y la dividimos entre el número total de datos veamos ahora la parte interesante la varianza de la muestra hay varias maneras cuando la gente habla de varianza muestral existen varias maneras herramientas software para calcular esta varianza muestral una manera es la varianza de la muestra sesgada el estimador sesgado de la varianza poblacional el cual se denota por una ese subíndice n y como calculamos es estimador sesgado de la varianza poblacional bueno vamos a hacerlo de manera muy similar a como lo hicimos aquí pero ahora lo haremos para la muestra y no para la población para cada valor para cada valor de la muestra vamos a restarle la media muestral la media muestral la vamos elevada al cuadrado vamos a hacer la suma de esos valores y luego se divide entre el tamaño de la muestra pero como ya mencionamos en el último vídeo como encontraríamos cuál sería nuestro mejor estimador en sesgado de la varianza poblacional estamos tratando de encontrar un estimador in sesgado de la varianza poblacional bien en el vídeo pasado mencionamos que si tú querías calcular un estimador in sesgado y en este vídeo espero darte el sentido intuitivo de por qué esto es así para el estimador in sesgado tomaremos cada uno de los valores le restamos la media elevaremos la diferencia al cuadrado sumaremos las diferencias pero en vez de dividir la suma entre n la dividiremos entre n menos 1 estamos dividiendo entre un número que es menor es un número menor por lo cual este estimador el estimador de la varianza muestral es un número que es mayor este número es mayor con respecto a este que es menor este valor se conoce como el estimador in sesgado el estimador y sesgado y este aquí es el estimador sesgado el estimador sesgado cuando la gente escribe esto para denotar la varianza de la muestra sería bueno que precisarán a cuál de los dos refieren pero pero si tienes que adivinar y no hay información adicional muy probablemente se están refiriendo al estimador insertado de la varianza para el cual se tiene que dividir entre n menos uno pero pensemos porque este estimador es sesgado y porque deseamos un valor del estimador que es un número mayor y quizás en un futuro te presentará un programa por computadora que nos haga comprender mejor por qué el dividir entre n menos 1 nos da una mejor estimación del valor real de la varianza poblacional imaginemos ahora todos los datos de la población todos los datos de la población y los voy a graficar en la recta numérica este es una recta numérica y aquí voy a poner los datos de mi población aquí tenemos un valor aquí hay otro valor otro valor aquí hay más datos aquí tenemos otro valor aquí tenemos más datos más datos por aquí más datos por acá los puede distribuir como yo quiera aquí simplemente tenemos datos sobre la recta numérica supongamos que toma una muestra de esto este es toda mi población que tiene veamos cuántos valores 1 2 3 4 5 6 7 8 9 10 11 12 13 14 valores tenemos así que en este caso cuánto vale n mayúscula n mayúscula es igual a 14 supongamos que toma una muestra en este caso mi muestra sería digamos de tamaño n minúscula igual a 3 podría tomar bueno antes de que hagamos eso pensemos dónde se ubicaría aproximadamente la media de esta población no lo va a calcular pero podemos decir que aproximadamente se ubicaría aquí aquí ubicaríamos aproximadamente el valor real del parámetro media de la población pensemos ahora qué ocurre cuando tomamos una muestra aunque esto es válido para cualquier tamaño de muestra voy a hacerlo para una muestra pequeña simplemente para desarrollar el aspecto intuitivo del asunto supongamos entonces que tomamos una muestra de tamaño n igual a 3 existe cierta posibilidad que al tomar una muestra de tamaño 3 suceda que seleccionamos la muestra de tal manera que la media de la población se ubica muy cerca de la media de la muestra así por ejemplo seleccionamos este punto este punto este otro punto podemos imaginar en una aproximación visual que la media muestra 'la se ubica bastante cerca de la media poblacional pero también es posible que cuando tomé mi muestra tome este valor este valor y este valor y la clave aquí es saber que cuando tomas una muestra la media de la muestra se va ubicar entre los valores de la muestra así es que hay la posibilidad de que cuando tomes una muestra la media de la muestra se ubica alejada de la media poblacional así que en este caso y simplemente para darte la intuición la media la muestra pudiera estar ubicada digamos por aquí por ahí ubicamos la media y si fuéramos a calcular la distancia de cada uno de los puntos con respecto a la media de la muestra así que tomarías esta distancia esta distancia de acá luego lo llevarías al cuadrado y cuando lo divides entre el número de puntos basta tener una estimación de la varianza mucho menor al valor real de la varianza que se tiene con respecto a la media poblacional aquí puedes ver que estos valores están mucho más alejados ahora no siempre va a estar el valor de la media poblacional fuera de la muestra pero es posible que esto suceda así que en general si simplemente tomas tus puntos encuentra la distancia al cuadrado con respecto a la media muestral la cual siempre va a estar entre esos puntos aún así la media poblacional podría estar fuera de esos puntos o podrías tener un extremo de dónde se ubican tus datos de cualquier manera es muy probable que estés subestimando el valor real de la varianza poblacional así es que con este valor vas a estar subestimando subestimando la varianza poblacional por lo cual resulta que si en vez de dividir entre n dividimos entre n menos uno tendremos un valor de la varianza muestral que es ligeramente mayor y que resulta ser una estimación in sesgada en un próximo vídeo voy a generar una simulación por computadora a través del cual nos convenzamos aún más del por qué esta estimación es mucho mejor que esta estimación para la varianza poblacional