If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Medidas de dispersión: rango, varianza y desviación estándar

¡Discutimos las tres medidas de dispersión más comunes! Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

en el último vídeo vimos distintas maneras de representar la tendencia central o el promedio de un conjunto de datos lo que vamos a hacer en este vídeo es ver de qué manera podemos ahora medir qué tan dispersos están los datos veamos esto supongamos que tenemos el siguiente conjunto de datos menos 10 0 10 20 y 30 ese es un conjunto de datos también tenemos otro conjunto de datos 8 9 10 11 y 12 para empezar calculemos la media aritmética para ambos conjuntos de datos calculemos entonces la media y conforme avances en tus cursos de estadística vas a entender la diferencia entre la media de una población y la media de una muestra estamos suponiendo que estos datos corresponden a una población y que estos datos también corresponden a una población así es que lo que vamos a calcular son medias de población calcularemos directamente los parámetros de la población estamos tomando en cuenta todos los datos de esa población en ocasiones vas a calcular estadísticos a partir de muestras para estimar parámetros de la población por lo pronto no nos preocupemos de eso lo quería dejar en claro para aquellos que van a profundizar en el estudio de la estadística ahora la media poblacional la media aritmética de este conjunto de datos es menos 10 + 0 + 10 20-30 dividido entre 5 y esto cuánto nos da este menos 10 se cancela con este 10 nos queda 20 30 y 50 sobre 5 esto es igual a 10 y para este otro conjunto de datos la media es 8 9 10 11 12 todo esto dividido sobre 5 hagamos la suma de la siguiente manera sumamos este 8 + 12 20 9 + 11 otros 20 20 20 40 10 son 50 sobre 5 esto es igual a 50 sobre 5 que es igual a 10 así es que las dos medias de la muestra en perdón las dos medias poblacionales son iguales a 10 bueno si no te quieres preocupar de si son de población o de muestra podemos decir que en ambos casos las medias aritméticas son iguales a 10 si sumas estos números y los divides entre 5 y si sumas estos números y los divides entre 5 en ambos casos obtienes 10 pero claramente estos dos conjuntos de datos son con tan solo ver estos números podrías pensar que los dos conjuntos son iguales al observar los dos conjuntos de datos hay algo que llama la atención todos estos números están muy cerca de 10 el mayor de ellos está tan solo a dos unidades de 10-12 eeuu de 10 en cambio al ver estos números están bastante alejados de 10 los más cercanos a 10 están a 10 unidades y los más alejados están a 20 unidades este conjunto de datos está más disperso más disperso estos números de aquí están más alejados de su media que estos números de aquí de su media veamos ahora cómo podemos medir esta dispersión o qué tan lejos se encuentran en promedio un conjunto de datos con respecto a su media una manera de calcular esto digamos la manera más simple es el rango y no es un valor que se usa comúnmente pero es una manera muy simple de evaluar dispersión simplemente calculando la diferencia entre el valor máximo y el valor mínimo así es que para este conjunto es 30 que es el máximo menos el valor mínimo -10 esto es igual a 40 es decir para este conjunto de datos el rango la diferencia entre el valor mínimo y el valor máximo es igual a 40 para este otro conjunto de datos el rango es el máximo 12 menos el mínimo 8 lo cual es igual a 4 en este caso el rango es una buena medida de dispersión cuando calculamos la media vimos que para ambos conjuntos de datos está es igual a 10 sin embargo para este conjunto de datos encontramos un rango mucho mayor indicándonos que son datos más dispersos sin embargo en general el rango no es una buena medida de dispersión pudiera ser que tuviéramos dos conjuntos de datos con el mismo rango y sin embargo la distribución de los valores la variación que tiene los valores con respecto a la media ser totalmente distinta ahora la medida más usada para dispersión es la varianza la varianza de hecho en realidad la más usada es la desviación estándar aquí vamos a hablar de la desviación estándar que está íntimamente relacionada con la varianza el símbolo para la varianza y de nueva cuenta estamos suponiendo que estos son datos de una población son los datos que están en la población no es una muestra no es un subconjunto de la población entonces el símbolo para la varianza de la población es esta letra sigma elevada al cuadrado sigma al cuadrado representa la varianza de la población y veremos que la sigma sin el cuadrado representa la desviación estándar hay una razón para ello pero en fin la definición de la varianza es la siguiente vamos a tomar cada uno de nuestros datos ya ese valor le vamos a restar la media vamos a elevar al cuadrado esa diferencia y vamos a tomar el promedio de esas diferencias recordemos que para este conjunto de datos la media es de 10 iniciamos el cálculo con este valor de menos 10 déjame bajar un poquito mi pantalla para hacerlo aquí abajo así es que el primer valor es menos 10 menos la media menos 10 elevado al cuadrado este es el primer valor de menos 10 y le estoy restando la media de 10 luego al cuadrado y le voy a sumar el siguiente valor que es 0 menos aquí está la media de 10 aquí está la media de 10 que tenemos elevado al cuadrado más 10 menos 10 elevado al cuadrado es este 10 que tenemos aquí más el siguiente valor que es 20 menos 10 elevado al cuadrado y finalmente más 30 menos 10 elevado al cuadrado estos que acabamos de escribir aquí son los cuadrados de las diferencias entre cada dato y la media esta que tenemos aquí es la media esta es la media estoy encontrando la diferencia entre cada dato y la media elevando al cuadrado cada diferencia sumando los para obtener entonces el promedio de las diferencias elevadas al cuadrado dicho así suena complicado pero lo único que he hecho es tomar cada uno de los datos sacar su diferencia con respecto a la media elevada al cuadrado y voy a sacar el promedio dividiendo entre 1 2 3 4 5 dividiendo entre 5 y esto a que es igual bien tenemos aquí menos 10 menos 10 es menos 20 elevado al cuadrado sería 400 más 0 - 10 menos 10 se eleva al cuadrado más 100 más 10 menos 1000 elevado al cuadrado es 0 más 2010 es 10 elevado al cuadrado es 100 más 30 menos 10 20 elevado al cuadrado 400 todo eso dividido entre 5 y esto cuánto nos da 400 más 100 son 500 más otros 500 esto es igual a 1000 sobre 5 y esto es igual a 200 así es que para este conjunto de datos la varianza es igual a 200 esta es nuestra medida de dispersión comparemos ahora este valor con la varianza de este otro conjunto de datos de este otro conjunto de datos que aparentemente está menos disperso voy a hacerlo por acá oops ahí se me acabó el espacio mejor voy a irme hacia arriba aquí tenemos un poco más voy a calcular entonces la varianza de este conjunto de datos recordemos que la media es igual a 10 la varianza es entonces la varianza es igual a 8 menos 10 elevado al cuadrado más 9 menos 10 elevado al cuadrado más 10 menos 10 elevado al cuadrado más 11 menos 10 me voy a subir un poco más 11 menos 10 elevado al cuadrado más 12 menos 10 elevado al cuadrado todo eso lo voy a dividir entre entre 5 que es el número de diferencias al cuadrado que tenemos 5 voy a calcular entonces la varianza esto es igual a 8 menos 10 menos 2 elevado al cuadrado cuatro más nueve menos diez menos uno elevado al cuadrado uno más diez menos diez elevado al cuadrado cero más 11 menos diez uno elevado al cuadrado uno más doce menos diez es 2 elevado al cuadrado 4 todo eso dividido entre 5 y esto cuánto nos da aquí tenemos 4 15 5 10 sobre esto es igual a 2 así es que la varianza aquí déjame checar si serían los cálculos si efectivamente está bien calculado la varianza para este conjunto de datos menos disperso la varianza es igual de acuerdo a lo que acabamos de calcular la varianza es igual a 2 y esto nos confirma que efectivamente este conjunto de datos es menos disperso que este otro conjunto de datos ahora el problema con la varianza es tenemos los datos tomamos las diferencias de estos datos con respecto a la media las elevamos al cuadrado y las sumamos y esto nos da un número que es un tanto arbitrario pues estamos tratando con magnitudes físicas digamos que por ejemplo estas son distancias estos serían por ejemplo menos 10 metros 0 metros 10 metros acá tendríamos 8 metros y cuando elevada al cuadrado obtendrías unidades extrañísimas como metros cuadrados unidades que no hacen sentido es por eso que generalmente se prefiere en vez de usar la varianza como medida de dispersión usar la desviación estándar desviación desviación estándar la cual se define simplemente como la raíz cuadrada de la varianza la raíz cuadrada de la varianza es decir la raíz cuadrada de sigma cuadrada y el símbolo para la desviación estándar es simplemente sigma ahora que ya hemos calculado la varianza para los dos conjuntos de datos es muy fácil calcular la desviación estándar la desviación estándar del primer conjunto de datos va a ser igual sigma va a ser igual a la raíz de 200 que es igual a la raíz de 2 por 100 que es igual a 10 raíz de 2 ahora para el segundo conjunto de datos la varianza la calculamos igual sacamos la raíz cuadrada del perdón la alineación estándar es la raíz cuadrada la varianza la desviación estándar para el segundo conjunto de datos es igual a la raíz de 2 y aquí vemos que la desviación estándar del segundo conjunto de datos es la décima parte de la desviación estándar del primer conjunto de datos este es 10 raíz de dos y este simplemente raíz de dos así es que esto es a veces diez veces desviación estándar 10 veces la desviación estándar y esto qué quiere decir que significa que la desviación estándar del primer conjunto de datos equivale a 10 veces la desviación estándar del segundo conjunto de datos recordemos cómo calculamos la varianza para cada dato calculamos que tan lejos estaba de la media lo elevamos al cuadrado y tomamos el promedio de esos valores luego sacamos raíz cuadrada para tener unidades aceptables y concluimos que el primer conjunto de datos tiene 10 veces la desviación estándar del segundo conjunto de datos veamos ahora los dos conjuntos de datos hemos encontrado que este conjunto de datos tiene 10 veces 10 veces la desviación estándar desviación estándar lo cual hace sentido intuitivamente ambos tienen una media de 10 pero aquí el 9 está a una distancia del 10 y aquí está el 0 a diez de distancia del 10 8 está solo a 2 mientras que menos 10 está a 20 comparativamente cada uno de los datos está 10 veces más lejos de la media vemos entonces que la desviación estándar tiene significado más claro de que tanto en promedio se alejan los datos con respecto a la media espero que esto te sea útil