Contenido principal
Tiempo actual: 0:00Duración total:12:34

Transcripción del video

en el último vídeo vimos distintas maneras de representar la tendencia central o el promedio y un conjunto de datos lo que vamos a hacer en este vídeo es ver de qué manera podemos ahora medir qué tan dispersos están los datos veamos esto supongamos que tenemos el siguiente conjunto de datos - 10 0 10 20 y 30 ese es un conjunto de datos también tenemos otro conjunto de datos 8 9 10 11 y 12 para empezar calculemos la media aritmética para ambos conjuntos de datos calculemos entonces la media y conforme avances en sus cursos de estadística vas a entender la diferencia entre la media de una población y la media de una muestra estamos suponiendo que estos datos corresponden a una población y que estos datos también corresponden a una población así es que lo que vamos a calcular son medias de población calcularemos directamente los parámetros de la población estamos tomando en cuenta todos los datos de esa población en ocasiones vas a calcular estadísticos a partir de muestras para estimar parámetros de la población por lo pronto no nos preocupemos de eso lo quería dejar en claro para aquellos que van a profundizar en el estudio de la estadística ahora la media poblacional la media aritmética de este conjunto de datos es menos 10 + 0 + 10 + 20 +30 dividido entre 5 y esto cuánto nos da este menos 10 se cancela con este 10 nos quedan veinte más 30 igual a 50 sobre 5 esto es igual a 10 y parece otro conjunto de datos la media es 8 +9 +10 +11 +12 todo eso divididos sobre 5 hagamos la suma de la siguiente manera sumamos este 8 + 12 20 9 +11 otros 2020 más 2040 +10 son 50 sobre 5 esto es igual a 50 sobre 5 que es igual a 10 así es que las dos medias del amor traen perdón las dos medias poblacionales son iguales a 10 bueno si no te quieres preocupar de xixón de población no demuestra podemos decir que en ambos casos las medias aritméticas son iguales a 10 si sumas estos números y los divide entre 5 y si sumas estos números y los divide en 3 5 en ambos casos obtienes 10 pero claramente estos dos conjuntos de datos son distintos con tan sólo ver estos números podrías pensar que los dos conjuntos son iguales al observar los dos conjuntos de datos hay algo que llama la atención todos estos números están muy cerca de 10 el mayor de ellos está tan sólo a dos unidades de 10 12 estados unidos 10 en cambio albert estos números están bastante alejados de 10 los más cercanos a 10 están a 10 unidades y los más alejados están a 20 unidades este conjunto de datos está más disperso más disperso estos números de aquí están más alejados de su media que estos números de aquí de su media veamos ahora cómo podemos medir esta dispersión o qué tan lejos se encuentran en promedio un conjunto de datos con respecto a su media una manera de calcular esto digamos la manera más simple es el rango y no es un valor que se usa comúnmente pero es una manera muy simple de evaluar dispersión simplemente calculando la diferencia entre el valor máximo y el valor mínimo así es que para este conjunto es 30 que es el máximo - el valor mínimo - - 10 esto es igual a 40 es decir para este conjunto de datos el rango la diferencia entre el valor mínimo y el valor máximo es igual a 40 para este otro conjunto de datos el rango es el máximo 12 - el mínimo ocho lo cual es igual a 4 en este caso el rango es una buena medida dispersión cuando calculamos la media vimos que para ambos conjuntos de datos está igual a 10 sin embargo para este conjunto de datos encontramos un rango mucho mayor indicándonos que son datos más dispersos sin embargo en general el rango no es una buena medida de excepción pudiera ser que tuviéramos dos conjuntos de datos con el mismo rango y sin embargo la distribución de los valores la variada y aunque tiene los valores con respecto a la media ser totalmente distinta ahora la medida más usada para dispersión es la varianza la varianza de hecho en realidad la más usada es la desviación estándar aquí vamos a hablar de la desviación estándar que está íntimamente relacionada con la varianza el símbolo para la varianza y de nueva cuenta estamos suponiendo que estos son datos de una población son todos los datos que está en la población no es una muestra no es en su conjunto de la población entonces el símbolo para la varianza la población es esta letra sigma elevada al cuadrado sin mal cuadrado representa la varianza de la población y veremos que la sigma sin el cuadrado representa la desviación estándar hay una razón para ello pero en fin la definición de la varianza es la siguiente vamos a tomar cada uno de nuestros datos ya ese valor le vamos a restar la media vamos a elevar al cuadrado esa diferencia y vamos a tomar el promedio de esas diferencias recordemos que para este conjunto de datos la media es de 10 iniciamos el cálculo con este valor de -10 déjame bajar un poquito mi pantalla para hacerlo aquí abajo así es que el primer valores menos 10 - la media - 10 elevado al cuadrado este es el primer valor de menos 10.000 estoy restando la media de 10 luego al cuadrado y le voy a sumar el 7 valor que es cero - 10 aquí está la media de 10 aquí está la media de 10 que tenemos elevado al cuadrado más diez menos diez elevado al cuadrado es este 10 que tenemos aquí más el siguiente valor que es 20 - 10 elevado al cuadrado y finalmente +30 -10 elevado al cuadrado esto es que acabamos de describir aquí son los cuadrados de las diferencias entre cada dato y la media está que tenemos aquí es la media está en la media estoy encontrando la diferencia entre cada dato y la media elevando al cuadrado cada diferencia sumando los para obtener entonces el promedio de las diferencias elevadas al cuadrado dicho así suena complicado pero lo único que he hecho es tomar cada uno de los datos sacar su diferencia con respecto a la media elevada al cuadrado y voy a sacar promedio dividiendo entre 12 345 dividiendo entre 5 y esto a que es igual bien tenemos aquí menos diez menos diez es menos 20 elevado al cuadrado sería 400 más 0 - diez menos diez eleva al cuadrado más 100 más 10 - 10 00 elevado al cuadrado es cero más 20 - 10 310 elevado al cuadrado 100 más 30 - 10 20 elevada al cuadrado 400 todo eso dividido entre 5 y esto cuánto nos da 400 más 100 son 500 más otros 500 esto es igual a mil sobre 5 y esto es igual a 200 así es que para este conjunto de datos la varianza es igual a 200 esta es nuestra medida de dispersión comparemos ahora este valor con la varianza de este otro conjunto de datos de este otro conjunto de datos que aparentemente está menos disperso voy a hacerlo por acá oops ahí se me acabó el espacio mejor voy a irme hacia arriba aquí tenemos y un poco más de espacio voy a calcular entonces la varianza de este conjunto de datos recordemos que la media es igual a 10 la varianza ese entonces la varianza es igual a 8 - 10 elevado al cuadrado más nueve menos diez elevado al cuadrado más diez menos diez elevado al cuadrado más once menos diez me voy a subir un poco más once menos diez elevado al cuadrado más doce menos diez elevado al cuadrado todo eso lo voy a dividir entre entre 5 que es el número de diferencias al cuadro que tenemos cinco voy a calcular entonces la varianza esto es igual a 8 - 10 - 2 elevado al cuadrado cuatro más 9 - 10 -1 elevada al cuadrado uno más diez menos diez se eleva al 40 más 11 - 10 1 eleva al cual uno más 12 - 10 32 elevada al cuadrado 4 todo eso dividido entre 5 y esto cuando nos da aquí tenemos cuatro más 15 más 5 10 sobre 5 esto es igual a 2 así es que la varianza aquí déjame checar si se ven los cálculos si efectivamente está bien calculado la varianza para este conjunto de datos - dispersó la varianza es igual de acuerdo a lo que acabamos de calcular la varianza es igualados y esto nos confirma que efectivamente este conjunto de datos es menos disperso que este otro conjunto de datos ahora el problema con las variantes tenemos los datos tomamos las diferencias de estos datos con respecto a la media las elevamos al cuadrado y la sumamos y esto nos da un número que es un tanto arbitrario pues estamos tratando con magnitudes físicas digamos que por ejemplo éstas son distancias éstos serían por ejemplo menos 10 metros 0 metros 10 metros acá teníamos ocho metros y cuando llevas al cuadrado obtendrías unidades extrañísimas cob metros cuadrados unidades que no hacen sentido es por eso que generalmente se prefiere en vez de usar la varianza como medida de excepción usar la desviación estándar la desviación desviación estándar la cual se define simplemente como la raíz cuadrada de la varianza la raíz cuadrada de la varianza es decir la raíz cuadrada de sigma cuadrada y el símbolo para la desviación estándar es simplemente sigma ahora que ya hemos calculado la varianza para los dos conjuntos de datos es muy fácil calcular la desviación estándar la desviación estándar del primer conjunto de datos va a ser igual sigma va a ser igual a la raíz de 200 que es igual a la raíz de 2% que es igual a 10 raíz de dos ahora para el segundo conjunto de datos la varianza la calculamos igual sacamos la raíz cuadrada del pero la desviación estándar es la raíz cuadrada de la varianza la desviación estándar para el segundo conjunto de datos es igual a la raíz de dos y aquí vemos que la desviación estándar del segundo conjunto de datos es la décima parte de la desviación estándar del primero junto a de datos este 16 de 27 simplemente raíz de dos así es que esto es 10 veces diez veces la desviación estándar diez veces la desviación estándar y esto qué quiere decir que significa que la desviación estándar del primer conjunto de datos equivale a 10 veces la desviación estándar del segundo conjunto de datos recordemos cómo calculamos la varianza para cada dato calculamos que está lejos estaba de la media lo llevamos al cuadrado y tomamos el promedio de esos valores luego sacamos raíz cuadrada para tener unidades aceptables y concluimos que el primer conjunto de datos tiene diez veces la desviación estándar del segundo conjunto de datos veamos ahora los dos conjuntos de datos hemos encontrado que este conjunto de datos tiene diez veces diez veces la desviación estándar desviación estándar lo cual hace sentido intuitivamente ambos tienen una media de 10 pero a quien no está a una distancia de 10 y aquí está el cero a diez de distancia del 10 8 está sólo a dos mientras que menos 10 está a 20 comparativamente cada uno de los datos está diez veces más lejos de la media vemos entonces que la desviación estándar tiene un significado más claro de que tanto el promedio se aleja los datos con respecto a la media en fin espero que esto sea útil