If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Varianza muestral

Pensar acerca de cómo podemos estimar la varianza de una población al observar los datos de una muestra. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

supongamos que estás interesado en los hábitos de ver televisión de la gente en particular que tanto la gente de televisión en el país y lo que tienes que tomar en cuenta si imaginamos a todos los habitantes del país esto ya lo hemos hablado especialmente si estamos hablando de un país como los eeuu aunque cualquier país va a tener una gran población en eeuu estamos hablando alrededor de 300 millones de habitantes idealmente si de alguna manera mágica pudieras hacerlo tendrías que observar o encuestar a las 300 millones de personas y calcular la media de cuánto tiempo de televisión ven en un día específico eso te va a dar el parámetro la media poblacional pero esto también ya lo hemos hablado antes encuestar a toda la población es sin práctico aunque pudieras hacerlo en el momento en que terminarás de tomar los datos te darás cuenta que algunas personas han muerto otras habrán nacido quien sabe que tantas cosas habrán ocurrido de tal manera que aunque existe un valor verdadero de esta media poblacional teórica del tiempo en que los americanos se la pasan viendo la televisión en un día específico aunque en un momento dado existe un valor real un valor real en un momento dado específico la realidad es que es imposible obtener ese valor específico aunque existe es imposible obtener dicho valor verdadero pero no te das por vencido y dices bien en lugar de observar a las 300 millones de personas voy a obtener una muestra simplemente voy a tomar una muestra a partir de esta población y pongamos que con objeto de hacer los cálculos simples tomamos una muestra de tamaño 6 posteriormente hablaremos de por qué una muestra de tamaño 6 no tiene el tamaño adecuado que se requiere así que preguntas cuánto tiempo en televisión estas personas y encuentras que una persona a la de una hora y media otra persona a la de dos horas y media alguien más de 4 horas de televisión otra persona ve dos horas de televisión y dos personas ven una hora cada una así es que dados estos datos de la muestra que es lo que obtenemos como media muestra bien la media muestral la cual denotamos con una equis con una raya encima es simplemente la suma de los valores de la muestra dividida entre el número de datos de la muestra que tenemos en este caso 1.5 2.5 más 4 más dos más uno más uno dividido entre seis esto es igual a 1.5 2.5 es igual a 44 igual a 8 más 2 es igual a 10 más 2 es igual a 12 dividido entre 6 12 sextos lo que es igual a 2 horas de televisión por lo tanto para tu muestra puedes afirmar que la media muestral es de 2 horas de televisión es un estimado es un estadístico que trata de estimar este parámetro que es muy difícil de conocer sin embargo lo mejor que tenemos quizás podríamos tener una mejor aproximación con más datos pero por lo pronto esto es lo que tenemos y ahora lo siguiente que te preguntas es bueno no simplemente quiero obtener la media poblacional también quiero obtener otro parámetro quiero obtener otro parámetro estoy interesado también en obtener la varianza poblacional nueva cuenta dado que no podemos encuestar a toda la población esto es prácticamente imposible conocer vamos a estimar este parámetro que intentamos estimar la media y ahora vamos a intentar estimar este parámetro este parámetro denominado varianza y cómo le hacemos bueno lo razonable es pensar que hagamos con la muestra lo mismo que hacemos con la población para calcular la varianza poblacional tomás cada uno de los valores individuales le restas la media poblacional elevada al cuadrado esa diferencia sumas todos esos cuadrados de las diferencias y lo divides entre el número de datos que se tienen hagamos eso aquí tomamos cada uno de estos valores calculamos la diferencia déjame hacerlo con un color distinto tomamos cada uno de los valores cada uno de estos valores y le restamos la media muestral no la media poblacional que no conocemos la media muestral le restamos la media muestral lo elevamos al cuadrado más el siguiente nuestros valores que es 4 menos 2 al cuadrado más el siguiente valor uno menos 2 elevado al cuadrado y esto lo que hubiéramos hecho si tuviéramos que calcular la varianza poblacional suponiendo que ésta fuera nuestra población encontraríamos la media de esta población obtendríamos la distancia de cada punto con respecto a la media lo elevaría mos al cuadrado la sumaríamos y la dividiríamos entre el número de puntos luego tenemos más 2.5 menos 2 le estamos restando la media muestral elevamos al cuadrado más déjame hacerlo con este verde más dos menos 2 elevado al cuadrado y finalmente más uno más uno menos dos elevado al cuadrado y eso lo dividimos entre el número total de puntos que en este caso es 6 que tenemos entonces tenemos como primer término 1.5 2.5 elevado al cuadrado punto 5 elevado al cuadrado obtenemos punto 25 0.25 luego 4 menos dos elevado al cuadrado esto es 4 4 - 2 es 2 eleva al cuadro es 41 menos 2 es menos 1 - 1 elevado es 1 luego 2.5 menos 12.5 elevado al 4.25 2 - 12 0 al cuadrado es 0 y finalmente 1 - 2 - 1 - 1 elevado al cuadrado menos 1 elevado al cuadrado es 1 positivo hagamos la suma tenemos que punto 25 es el primero los enteros 4 1 del 5 y 1 son 6 6 y aquí tenemos punto 25.25 86.5 esto es igual a hacerlo con otro color esto es igual a 6.5 dividido entre este 6 y 6.5 entre 6 y esto podemos escribir lo bueno hay distintas maneras de cómo escribir esto voy a sacar la calculadora esto es igual a 6.5 sobre 6 esto me da igual a 1.08 1.08 redondeado así que esto es igual a esto es aproximadamente igual a 1.08 bien es lo que obtenemos de este cálculo lo que tenemos que pensar ahora es si este es en realidad el mejor cálculo si dado los datos con que se cuentan es esta la mejor estimación para la varianza poblacional con estos datos que se tienen aquí siempre puedes argumentar que con más datos se obtendría una mejor estimación pero dados estos datos es esta la mejor estimación que se tiene para la varianza poblacional piense en esto brevemente resulta que esta es una estimación cercana bastante cercana a la mejor estimación que se puede hacer dados los datos con los que se cuenta este es un tipo particular de varianza que se tiene en la cual se divide entre el número de datos con el que se cuenta así es que usualmente la gente escribe una n como subíndice aquí así es que esta es una manera de calcular la varianza muestral como un intento de aproximar la varianza poblacional pero resulta y en el siguiente vídeo te voy a dar una explicación intuitiva del por qué esto es así e inclusive voy a escribir una simulación por computadora para que podamos experimentalmente apreciar mejor este hecho pues resulta entonces que se obtiene una mejor aproximación de la varianza poblacional si en vez de dividir entre seis el número de datos que se tienen divides entre el número de datos que se tienen menos uno y cómo hacemos eso bien vamos a denotar la varianza y cuando la mayoría de la gente habla de varianza muestral se están refiriendo a la varianza de la que incluye estos cálculos pero en vez de dividir en 36 se divide entre 5 en este caso denotamos que se divide entre n 1 que nos resulta entonces en este caso bueno el numerador es exactamente el mismo que obtuvimos aquí el numerador es igual a 6.5 y en el denominador tenemos n que es igual a 6 tenemos 6 datos pero ahora vamos a dividir entre n menos 16 menos 1 lo cual es igual a 5 así que 6.5 entre 5 es igual a 1.3 pues resulta que esta técnica para calcular la varianza de la muestra es la más común aunque parece un poco de brujería porque dividimos entre de menos 1 mientras que para la varianza poblacional dividimos entre n pero recuerda estamos tratando de estimar la varianza poblacional y esta es una mejor estimación y porque esto es así este cálculo está subestimando la varianza poblacional esta es una mejor estimación no sabemos precisamente cuáles ambos cálculos podrían estar muy alejados pudo haber sido simplemente el azar debido a la muestra pero cuando tomas un gran número de muestras y hay varias maneras de ver esto es un mejor cálculo esto te va a dar una mejor estimación pero ahora como escribimos esto cómo podemos escribir esto en notación matemática bien recuerda que estamos calculando una suma estamos tomando la suma sobre cada uno de nuestros datos empezamos en el primer dato y concluimos en el enésimo dato estamos usando en minúscula pues nos estamos refiriendo a la muestra si hubiera sido en mayúscula nos estaríamos refiriendo a toda la población aquí estamos considerando una muestra de tamaño n minúscula estamos tomando cada punto x subíndice y le estamos restando la media la muestra estamos restando la media de la muestra estamos elevando al cuadrado estamos tomando la suma del cuadrado de las distancias y estamos dividiendo no entre el número de datos sino en el número de datos menos uno así que esta fórmula que tenemos aquí donde dividimos entre 5 en vez de dividir entre 6 la definición común de la varianza de la muestra vamos a dejarlo aquí en el siguiente vídeo voy a intentar despertar tu intuición del por qué estamos dividiendo entre n en vez de entre n 1