If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

La media y la desviación estándar contra la mediana y el RIQ

Aprende a elegir las medidas "preferidas" de tendencia central y la dispersión cuando los valores atípicos están presentes en un conjunto de datos.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

tenemos nueve estudiantes que se acaban de graduar de una muy pequeña escuela toda la generación consiste de nueve personas y queremos averiguar cuál es la tendencia central de los salarios un año después de su graduación claro que también nos interesa tener una idea de cuál es la dispersión alrededor de esa tendencia central todos los alumnos de esa generación aceptaron ingresar en una computadora sus salarios y los podemos ver aquí ahora no es que estén ganando 35 pesos al mes aquí lo que tenemos son cuántos miles de pesos ganan al semestre así es que esta persona gana 35 mil pesos al semestre está gana 50 mil 50 mil 50 mil 56 mil 60 mil 60 mil 75 mil y a esta persona le va muy bien y gana 250 mil pesos al semestre ahora ya con todos estos datos la computadora arroja estos parámetros nos da dos medidas distintas de la tendencia central y dos medidas distintas de la dispersión por aquí tenemos la media que es aproximadamente 70 y 6.2 la calculadora calcula la media que es aproximadamente 76 punto 2 sumando todos los valores y dividiéndolo entre el número de datos que tenemos en este caso es 9 y por acá tenemos la mediana que es 56 la cual es mucho más fácil de calcular lo único que tenemos que hacer es ordenar los datos y encontrar cuál es el del medio que en este caso es 56 ahora lo que yo quiero que hagas en este vídeo es que le pongas una pausa y pienses en cuál de estas dos medidas de tendencia central es la más apropiada para estos datos que tenemos aquí pero bueno vamos a graficar por aquí todos estos datos para tener una mejor idea de cómo se relacionan entre sí por aquí digamos que tenemos el 0 así es que por acá tenemos 250 tenemos 50 150 200 y 250 y luego queremos dividir esto más por aquí está el 60 70 80 y 90 y aproximadamente por acá está el 40 y el 30 y el 20 y el 10 me pudo haber quedado mejor esta escala pero vamos a dejarlo así y vamos a graficar estos datos uno de los estudiantes gana 35 mil al semestre entonces tenemos un dato que se encuentra por acá luego tenemos 3 estudiantes que ahora ganan 50 mil 123 uno de ellos gana 56 mil otros dos estudiantes ganan 60 mil al semestre otro estudiante gana 75 mil 50 60 70 75 está más o menos por aquí y finalmente un estudiante gana 250.000 al semestre o sea que lo grafica mos por acá pero entonces si calculamos la media de 76.2 eso es más o menos por acá así es que aquí nos tenemos que preguntar si esta es una buena medida de la tendencia central bueno pues a mí no me parece que sea una buena medida de tendencia central porque esa medida de tendencia central es mayor que casi todos los datos de la muestra es mayor que todos excepto uno y la razón por la que sucede esto es que la medida está siendo muy sesgada por un solo dato que es mucho más grande que el resto de los datos este dato de 250.000 al semestre está demasiado alejado del resto de los datos por lo que está influyendo demasiado sobre la media y este es un fenómeno que podemos encontrar bastante seguido cuando tenemos por ejemplo los salarios de algunas personas si muchos datos se encuentran por acá entre sí 50 35 o 60 75 pero con un dato que se encuentre excesivamente alejado del resto de los datos una persona que esté ganando 250 mil modifica demasiado la media hace que sea una media sesgada porque aquí estamos sumando todos estos valores y dividiendo los entre el número de valores sumados por eso es por lo que influye tanto y en este tipo de casos donde tenemos valores que podrían modificar demasiado a la media la mejor medida de tendencia central es la mediana la mediana 56 está justo en este lugar y es una medida de tendencia central mucho mejor porque por ejemplo si esta persona en lugar de ganar 250 mil al semestre ganará no sé por ejemplo 250 millones al semestre la mediana seguiría estando en este lugar mientras que la media aumentaría muchísimo estaría muy sesgada a esta media por este valor pero la mediana se quedaría en exactamente el mismo lugar porque a la mediana no le importa qué tan grande es este número podría ser 250 y 100 ceros a la derecha de todas formas la mediana se va a quedar en este mismo lugar por lo que la mediana es una medida mucho más robusta es una medida de tendencia central mucho mejor si tenemos datos que no son simétricos si tenemos datos que se alejan mucho del resto de los datos la media es una muy buena medida si tienes datos más o menos simétricos datos en los que más o menos la mitad está abajo y la otra mitad está arriba y no tenemos este tipo de datos que están demasiado sesgados en alguna dirección y claro estos se vuelven más importantes y tenemos sólo unos cuantos datos como es el caso que en este ejemplo la mediana es una mejor medida de tendencia central pero también nos falta preguntarnos qué pasa con la dispersión y bueno en estos momentos tú me puedes decir oye sal pero nos acabas de explicar que la media no es una muy buena medida en este ejemplo y la desviación estándar se deriva a partir de la media para calcular esta desviación estándar lo que hacemos es tomar cada uno de estos datos restarle el valor de la media ya esa resta elevarla al cuadrado y sumamos cada una de esas restas elevadas al cuadrado luego como estamos tomando la desviación estándar tenemos que dividir entre el número de datos que tenemos y a todo eso le sacamos la raíz cuadrada así es que como la desviación estándar está basada en la media y acabamos de ver que en este ejemplo la media no es una muy buena medida esas mismas razones van a hacer que la desviación estándar esté muy sesgada que no represente de una buena forma lo que está pasando en este ejemplo este valor la desviación estándar es mucho más grande que lo que esperaríamos de un indicador de dispersión es cierto tenemos por aquí este valor que está muy alejado de la media y también de la mediana pero los demás datos se encuentran bastante cerca entre sí y bastante cerca de la mediana así es que para este ejemplo no solo vamos a usar la mediana sino que también vamos a usar el rango inter cuartil como medida de dispersión y como encontramos el rango inter cuartil bueno pues encontramos el primer cuartil y el tercer cuartel ahora para encontrar el primer cuartil tomamos el bloque de datos que son menores que la mediana de la muestra y encontramos su mediana que en este caso es 50 y luego por acá el tercer cuartel es la mediana del bloque de datos mayores a la mediana de la muestra por aquí tenemos 60 y 75 entonces la mediana de este grupo es 67.5 y listo la resta es el rango inter cuartil ahora si alguna de estas cosas no te pareció completamente clara tenemos muchos vídeos acerca de cómo calcular la media la desviación estándar la mediana el rango inter cuartil y todos los cuartiles y en esos otros vídeos lo vemos con mucho detalle aquí simplemente estamos haciendo un repaso pero bueno la diferencia entre estos dos es 17.5 así es que ese es nuestro rango inter cuartil ahora aquí es una muy buena idea observar que este rango inter cuartil esta distancia de 17.5 no cambia por más que modifiquemos este valor de 250 así es que estas dos medidas la mediana y el rango inter cuartil son las medidas más robustas si tenemos un conjunto de datos que está un poco sesgado lo que podemos concluir aquí es que la media y la desviación estándar no son malas medidas si tenemos un conjunto de datos que es más o menos simétrico y si no tenemos datos muy atípicos datos que van a sesgar la media y la desviación estándar en esas condiciones la media y la desviación estándar pueden ser medidas muy útiles en esas buenas condiciones la media y la desviación estándar son medidas muy sólidas sin embargo si tenemos un conjunto de datos con datos que son tan atípicos como este y si tenemos tan poquitos datos la mediana y el rango inter cuartil son medidas mucho más útiles la mediana como medida de tendencia central y el rango inter cuartil como medida de dispersión alrededor de esa tendencia central y es por este tipo de razones por las que generalmente usamos la mediana y el rango inter cuartil cuando estamos hablando de salarios porque muchas veces tenemos valores atípicos y lo mismo sucede cuando estamos hablando de precios de casas de alguna zona generalmente usamos la mediana y no media porque en una colonia podemos tener casas de dos millones o de tres millones pero puede ser que justo haya alguna mansión en medio de la colonia y que esa mansión valga como 100 millones y si calculamos la media de los valores de las casas en esa colonia la media por esa mansión va a subir muchísimo dándonos una falsa impresión del precio que tienen generalmente las casas en esa colonia dándonos una mayor tendencia central de lo que cuestan las casas en esa colonia