If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

La desviación estándar de la muestra y el sesgo

Presentamos un ejemplo del cálculo de la desviación estándar y el sesgo. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

supongamos que tú eres un agricultor de sandías y quieres hacer un estudio sobre la densidad de semillas en tu sandías tal vez porque tienes planes de criar sandías que tengan menos semillas y bueno claro no vas a no vas a partir todas las sandías para ver si esto está pasando porque sería absurdo tú obviamente quieres vender al menos la gran mayoría de sandías así que solamente quiere es una muestra un muestreo con algunas sandías para ver qué está pasando con la cantidad de semillas está disminuyendo sigue igual que pasa y después esperar poder tener algunas estadísticas de las muestras unas estimaciones decentes de los perímetros para la población así que iniciamos con esto digamos que tú tomas estos cubitos una muestra arbitraria de tus sandías y cuentas la cantidad de semillas en cada cubo ajá y lo que obtienes son ocho muestras en las que encontraste digamos en la primera cuatro semillas en la siguiente tres semillas en otros cinco o siete 29 11 y 7 ajá estas son las muestras está esta es la población de todos los cubos la población de todos los cubos podríamos pensar en cubos de un centímetro solo para facilitar la vida y esta es una muestra muy pequeña la que estamos tomando tal vez tal vez en el total haya en el total de la granja haya un millón no lo sé supongamos un millón esto sería en mayúscula un millón sería en mayúscula y digamos que n minúscula es igual a 8 sólo para facilitar la vida en matemáticas ahora vamos a pensar en qué estadísticas podemos medir a ok la primera que usualmente medimos es la tendencia central y esa es la media aritmética pero aquí estamos intentando estimar la media poblacional entonces obteniendo la media la media del muestreo vamos a obtener la media poblacional y cuál es la media del muestreo qué será y lo único que debemos hacer es sumar estas medidas y dividirlas por el número de muestras que tenemos entonces voy a sacar la calculadora entonces lo que hago tal vez no tal vez no no la necesito veamos aquí 4 13 775 es 12 12 719 19 2 es igual a 21 más 9 es 30 más 11 es 31 141 7 es 48 en total sobre 8 y eso ya es bastante directo cierto 48 dividido entre 8 es igual a 6 por lo tanto la media del muestreo es igual a 6 es nuestra estimación de lo que podría ser la población pero pero también queremos queremos pensar en en cuánto cuánto en nuestra población cuánto varía de la de la media cuánto varía de la media entonces podemos intentar estimar la varianza poblacional calculando la varianza del muestreo entonces vamos a calcular la varianza imparcial del muestreo espero que a estas alturas estemos familiarizados o estemos convencidos de por qué dividimos entre n menos 1 entonces vamos a calcular la varianza imparcial y si hacemos eso que vamos a obtener pensemos ok aquí va a ser esto será igual a 4 menos 6 al cuadrado más 3 menos 6 al cuadrado más 5 menos 6 al cuadrado más 7 menos 6 al cuadrado más 2 menos 6 al cuadrado más 9 menos 6 al cuadrado más 11 menos 6 al cuadrado más 7 menos 6 al cuadrado finalmente y todo esto dividido no entre 8 no entre 8 y recuerda que queremos la varianza imparcial entonces vamos a dividir entre 8 menos 1 así que vamos a dividir entre 7 esto será igual a la varianza imparcial lo voy a denotar así para que para que quede en claro que estamos dividiendo entre n minúscula menos 1 y será igual a vamos a hacer esto cuatro menos seis es igual a menos dos y al cuadrado es igual a cuatro positivo cuatro positivo ahora tres menos seis es igual a menos tres al cuadrado es igual a nueve 5 - 6 es igual a menos 1 al cuadrado es igual a 176 es igual a 1 al cuadrado es igual a 12 - es igual a menos 4 al cuadrado es igual a 16 9 menos 6 al cuadrado es igual a 9 y después 11 menos 6 al cuadrado es igual a 25 25 7 menos 6 al cuadrado es igual otra vez a 1 más 1 y todo esto dividido entre 77 así que sumemos esto 49 es igual a 13 1 es igual a 14 más uno es igual a 15 más 16 y 31 9 igual a 4025 igual a 65 y 166 y 66 sobre 7 esto lo podríamos dividir o podríamos simplemente a esto sería igual a 99 3 sobre 7 o podemos ponerlo en forma decimal veamos 66 dividido entre 7 es igual a 9 puntos 42 entonces aproximadamente 9.43 aproximadamente 9.43 y ok ahora eso nos dio nuestra varianza imparcial del muestreo como podemos calcular nuestra desviación estándar queremos alguna manera para obtener la estimación de lo que podría ser la desviación estándar del muestreo y usando lógica es razonable decir que esta es nuestra varianza imparcial es nuestra mejor estimación de lo que la verdadera varianza poblacional es entonces cuando pensamos en parámetros poblacionales para obtener la verdad la desviación estándar poblacional simplemente vamos a tomar la raíz cuadrada de la varianza poblacional entonces si queremos obtener una estimación de la desviación estándar muestral sólo tomamos la raíz cuadrada de la varianza imparcial eso es lo que vamos a hacer así que vamos vamos a definirlo de esta manera la desviación estándar muestral será igual a la raíz cuadrada de la varianza muestral ajá será la raíz cuadrada de la varianza muestral que es esto será la cantidad de la raíz de esta cantidad entonces raíz de la segunda respuesta aquí a esto así que será a 3.07 aproximadamente así que aproximadamente 3.07 ahora bien a continuación te diré algo que no es muy intuitivo pero espero sea de tu agrado entonces sobre esto sobre esto ya habíamos hablado antes ya habíamos hablado antes y se han hecho simulaciones para mostrar que esto es una variante imparcial de varianza poblacional cuando dividimos entre n menos 1 y eso es algo es un buen comienzo porque cuando tomamos la raíz cuadrada es un buen comienzo aunque dado que la raíz cuadrada la función raíz cuadrada no es no es lineal entonces la desviación estándar muestral que es igual lo escribo desviación estándar muestral desviación estándar muestral esto es igual es igual a la raíz cuadrada de nuestra varianza imparcial muestral entonces a nuestra varianza raíz cuadrada de nuestra varianza imparcial muestral desde igual a 1 hasta n dividido entre n menos 1 así es como se define la desviación estándar muestral y como la función raíz cuadrada no es lineal lo escribo eso es importante la raíz la función raíz cuadrada no es lineal no es lineal entonces resulta resulta que esto no es una variante imparcial de la verdadera verdadera desviación estándar poblacional ajá puedes hacer simulaciones de eso si es que te interesa pero entonces tal vez tú pienses ok entonces pasamos por todo este lío dividimos entre n menos 1 aquí para obtener un estimado de la varianza imparcial para la varianza poblacional porque no averiguamos alguna manera de llegar a una fórmula sobre la estimación de varianza imparcial de la desviación estándar poblacional no es tan sencillo porque para que la varianza muestral sea imparcial simplemente dividimos entre n menos 1 en lugar de n y eso funcionaba para cualquier para de hecho para cual distribución de probabilidad para nuestra población pero resulta que para hacer lo mismo con la desviación estándar no es tan sencillo no es tan fácil de hecho depende de cómo se distribuye a la población así que en estadística definimos la definimos la desviación estándar muestral y la utilizábamos basándonos en la raíz cuadrada de la varianza imparcial muestral pero cuando tú tomas esa raíz cuadrada si te da un resultado imparcial cuando estás utilizando esto para llegar a un estimado para la desviación estándar como te digo no es muy sencillo pero bueno nos vemos