If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal
Tiempo actual: 0:00Duración total:9:34

Transcripción del video

lo que vamos a hacer en este vídeo es hablar sobre cómo visualizar distribuciones de datos y después analizar dichas visualizaciones para eventualmente llegar a algo llamado curva de densidad comenzamos con un ejemplo sencillo para repasar algunos conceptos digamos que tengo 16 estudiantes y les pido que registren cuántos vasos de agua beben por día durante los últimos 30 días y calculen el promedio así que este dato nos indica que un estudiante debe en promedio 0.5 vasos de agua al día esta persona probablemente está muy deshidratada esta otra persona bebe 8.1 vasos de agua al día en promedio durante los últimos 30 días sin duda está mejor hidratada si queremos visualizar esto podemos elaborar un programa de frecuencia donde podemos crear algunas clases por ejemplo esta clase es para valores mayores o iguales a 0 y menores a 1 aquí vemos que dos datos caen en esta clase y es por eso que la barra de dicha clase llega hasta el 2 esta clase de acá va de mayor o igual a 3 y menor que 4 noten que hay 4 datos que están en esta clase y es por eso que la altura de esta barra en el histograma llega hasta el 4 esta es una buena forma de visualizar una distribución pero a ustedes quizá les preocupe más cuál es el porcentaje de mis datos que cae en esas clases lo cual se vuelve de especial interés cuando tenemos muchos datos como por ejemplo 280 mil millones 340 millones 300 mil 70 datos el conocer el total de los datos que caen en cada clase no es tan útil pero conocer el porcentaje que cae en cada clase es mucho más útil para esos casos tenemos el histograma de frecuencia relativa noten que contiene los mismos datos pero visualizados de otra forma en la primera clase en lugar de que la altura de la barra sea 2 la altura de la barra ahora es 12.5 por ciento porque es eso porque dos de los 16 datos caen en esta clase dos dieciseisavos son 1 que a su vez es 12.5 por ciento en esta clase de acá vean que la altura en lugar de ser 4 como en el histograma anterior ahora es 25% pero ambos histogramas están diciendo lo mismo cuatro de los 16 datos caen en esta clase cuatro dieciseisavos son un cuarto que a su vez es el 25% ambos tipos de histogramas son muy útiles y se utilizan todo el tiempo pero también tenemos casos en donde hay muchos más datos y queremos clases más específicas en este caso lo que se puede hacer es justamente hacer más específicas nuestras clases isa en lugar de que el ancho sea de un vaso de agua en promedio al día podría ser medio vaso de agua al día por lo que esta primera clase podría ser mayor o igual que 0 y menor que 0.5 esto nos daría una imagen más clara de la distribución de los datos y ahora estoy suponiendo que tenemos más de 16 datos quizá tenemos 16 millones de datos aquí tendríamos los porcentajes del lado izquierdo pero quizá esto no es suficientemente bueno para lo que queremos quizá queremos visualizar los datos de forma más específica y ahora el ancho de cada clase es de un cuarto de vaso pero quizá incluso esto no es suficiente necesitamos que sea cada vez más y más específica podemos imaginar hacia dónde va esto podemos llegar a un punto en donde nos aproximemos a un número infinito de clases y cada clase es infinitamente delgada tan delgada que llegaremos a un punto en el que podemos conectar las partes superiores de las barras de manera que obtenemos una curva real este tipo de curva es algo que usamos en estadística y como les prometí al inicio del vídeo esta es la curva de densidad de la que hablamos lo valioso de una curva de densidad es que es una visualización de la distribución en donde los datos pueden tomar cualquier valor de manera continua ya no se encuentran en sus respectivas clases como interpretamos esta visualización si observamos el ínter lo completo de 0 a 9 suponiendo que ningún estudiante tiene un promedio mayor que en 9 vasos al día de entre nuestros 16 millones de datos entonces el área bajo la curva en ese intervalo será de 100 por ciento será el 100 por ciento o 1.0 esto se va a cumplir para cualquier curva de densidad toda el área bajo la curva será igual al 100% ya que representa todos los datos una curva de densidad jamás tendrá un valor negativo no veremos que la curva pase hacia abajo y haga cosas extrañas ya que tenemos claro esto pensemos sobre cómo lo vamos a usar si yo quiero saber qué porcentaje de mis datos se encuentran entre 2 y 4 vasos me fijo en ese intervalo y voy a calcular el área bajo la curva dentro de ese intervalo esta área será mayor o igual que 0 y menor o igual a 100 % lo que veo aquí me da la impresión de que es cercano al 40% de toda el área bajo la curva así que viéndolo así digo que aproximadamente 40 por ciento de mí kaim dentro de ese intervalo si yo les preguntara qué porcentaje de los datos es mayor que 3 entonces ustedes verían esta área y parece que es el 50% aunque de nuevo es sólo un estimado pueden ver que incluso con los estimados una curva de densidad es muy útil en el mundo real los estadísticos a menudo tienen tablas que pueden representar la información de las curvas de densidad quizá tienen programas de cómputo o herramientas automatizadas además de que también existen curvas de densidad bien identificadas como la famosa curva de campana que veremos más adelante y que tiene datos precisos y herramientas muy conocidas que permiten conocer el área con exactitud lo último que les quiero comentar es un error clave de concepto de la curva de densidad si yo les preguntara cuál porcentaje de mis datos es exactamente igual a tres vasos de agua al día y me refiero a que sea exactamente igual a 3.000 000 y que continua por siempre exactamente 3 quizás se vean tentados a decir bueno aquí está el 3 veamos cuál es el punto en la curva que le corresponde y parece que está un poco por arriba de 0.2 así que podríamos decir que es aproximadamente 20 por ciento pero yo les digo que esto está mal recuerden que el porcentaje de los datos en un intervalo no está dado por la altura de la curva sino que está dado por el área bajo la curva de dicho intervalo si hablamos de un valor preciso como el ejemplo del valor 3 exacto no vamos a tener un área bajo la curva la línea vertical que dibuje en el número 3 no tiene un ancho lo que tiene mucho sentido en el mundo real aun cuando tengamos los datos de 16 millones de personas es poco probable que alguno de ellos beba exactamente 3 vasos de agua al día me refiero a que no bebe un átomo más ni un átomo menos que los 3 vasos probablemente haya muchas personas entre 2.9 y 3.1 ninguno que sea exactamente igual a tres vasos al día normalmente al promedio es un estimado y sabe 3.000 vasos al día o 2.999 nueve vasos al día así que en lugar de eso podemos preguntar cuál es el porcentaje que cae en el intervalo mayor o igual que 2.9 y menor o igual que 3.1 una vez que tenemos un intervalo entonces si podemos calcular el área en este caso ya tenemos un intervalo que tiene anchura que tiene el tamaño aproximado de esta área amarilla que estoy señalando podemos aproximar la con un rectángulo aún cuando la parte superior de la curva no sea plana se aproxima a un rectángulo que tiene punto 2 de altura y cuál es el ancho pasamos de 2.9 a 3.1 por lo que el ancho es punto 2 calculamos el área aproximada con este rectángulo aproximado 0.2 x 0.2 nos da una área de 0.04 o podemos decir que aproximadamente el 4% de los datos caen en este intervalo