If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Encontrar patrones en conjuntos de datos

A menudo recopilamos datos para poder encontrar patrones en los datos, tales como números que tienen una tendencia hacia arriba o correlaciones entre dos conjuntos de números.
Dependiendo de los datos y los patrones, a veces podemos ver ese patrón en una presentación tabular sencilla de los datos. Otras veces, ayuda visualizar los datos en una gráfica, como una serie de tiempo, una gráfica de líneas o una gráfica de dispersión.
Vamos a explorar ejemplos de patrones que podemos encontrar en los datos que nos rodean.

Detectar tendencias

Una cantidad de tendencia es un número que por lo general está aumentando o disminuyendo.
Considera estos datos sobre bebés por mujer en la India de 1955 a 2015:
AñoBebés por mujer
19605.91
19705.59
19804.83
19904.05
20003.31
20102.60
En este caso, los números decrecen de manera constante década por década, de modo que esta es una tendencia descendente.
Ahora considera estos datos sobre la esperanza de vida en los Estados Unidos de 1920 a 2000:
AñoEsperanza de vida
192055.38
193059.57
194063.24
195068.07
196069.86
197070.86
198073.91
199075.4
200076.9
En este caso, los números aumentan de manera constante década por década, de modo que esta es una tendencia ascendente.

Visualizar con gráficas

Vamos a intentar identificar tendencias ascendentes y descendentes en las gráficas, como en una gráfica de series de tiempo.
En esta gráfica de GapMinder se visualizan los bebés por mujer en la India, con base en los datos para cada año en lugar de cada década:
Una gráfica de líneas con años en el eje x y bebés por mujer en el eje y. El eje x va de 1960 a 2010 y el eje y va de 2.6 a 5.9. La línea comienza en 5.9 en 1960 y tiene una pendiente descendente hasta llegar a 2.5 en 2010.
Hay una clara tendencia descendente en esta gráfica, y parece ser casi una línea recta de 1968 en adelante.
📉 Opciones de la gráfica: el eje x va de 1960 a 2010, y el eje y va de 2.6 a 5.9. ¿La tendencia sería más o menos clara con diferentes opciones para los ejes? Experimenta con las opciones en GapMinder para poder verlo tú mismo.
Esta es una gráfica de la esperanza de vida en GapMinder, otra vez, con base en datos para cada año en lugar de cada década:
Un gráfica de líneas con años en el eje x y esperanza de vida en el eje y. El eje x va de 1920 a 2000 y el eje y va de 55 a 77. Una línea empieza en 55 en 1920 y tiene una pendiente ascendente (con un poco de variación) y termina en 77 en 2000.
La tendencia no es tan claramente ascendente en las primeras décadas, cuando varía hacia arriba y hacia abajo, pero se hace evidente en las siguientes décadas.
📉 Opciones de la gráfica: el eje x va de 1920 a 2000, y el eje y empieza en 55. ¿Cómo afectan estas opciones nuestra interpretación de la gráfica? Intenta cambiar las opciones en GapMinder para poder verlo tú mismo.
Comprueba tu comprensión
Muchos sitios web utilizan Google Analytics (¡incluyendo Khan Academy!) para rastrear el comportamiento de los usuarios.
Esta gráfica de Google Analytics muestra las páginas vistas de nuestro curso de AP Statistics de octubre de 2017 a junio de 2018:
Una gráfica de líneas con meses en el eje x y vistas de página en el eje y. El eje x va de octubre de 2017 a junio de 2018. El eje y va de 0 a 1.5 millones. La gráfica empieza alrededor de 250,000 y se mantiene cerca de ese número hasta diciembre de 2017. Después tiene una pendiente ascendente hasta llegar a 1 millón en mayo de 2018. Después de eso, tiene una pendiente descendente para el último mes.
¿Qué tendencias son evidentes en esta gráfica?
Escoge 1 respuesta:

Fluctuaciones estadísticas

Google Trends es un sitio que visualiza la popularidad de términos de búsqueda en Google a lo largo del tiempo.
Podemos utilizar Google Trends para investigar la popularidad de "data science" (ciencia de datos), un nuevo campo que combina el análisis estadístico de datos y las habilidades computacionales.
Esta es su gráfica para "data science" de abril de 2014 a abril de 2019:
Una gráfico de líneas con tiempo en el eje x y popularidad en el eje y. El eje x va de abril de 2014 a abril de 2019 y el eje y va de 0 a 100. Una línea muy irregular empieza alrededor de 12 y aumenta hasta que termina alrededor de 80.
Esa gráfica muestra una gran fluctuación a lo largo del tiempo (incluyendo grandes caídas en Navidad cada año). A pesar de eso, también muestra un aumento bastante claro a lo largo del tiempo.
Cuando estamos tratando con datos que fluctúan como estos, podemos calcular la "recta de tendencia" y superponerla en la gráfica (o pedirle a una aplicación de gráficas que la agregue por nosotros). Una recta de tendencia suaviza los datos y hace que la tendencia general sea más clara, si es que hay una.
Aquí está la misma gráfica con una recta de tendencia agregada:
Una gráfica de líneas con tiempo en el eje x y popularidad en el eje y. El eje x va de abril de 2014 a abril de 2019 y el eje y va de 0 a 100. Una línea muy irregular empieza alrededor de 12 y aumenta hasta que termina alrededor de 80. Una recta está superpuesta encima de la línea irregular y empieza y termina cerca de los mismos lugares que la línea irregular.
La recta de tendencia muestra una tendencia ascendente muy clara, que es lo que esperábamos. Ayuda que elijamos visualizar los datos a lo largo de un periodo de tiempo largo, ya que estos datos fluctúan de manera estacional durante todo el año.
Siempre que analices y visualices datos, considera maneras de recopilar datos que son causa de fluctuaciones. Para datos basados en el tiempo, a menudo hay fluctuaciones a lo largo de la semana (debido a la diferencia entre semana y el fin de semana), y fluctuaciones estacionales.

Hacer predicciones

Una razón por la que analizamos datos es para obtener predicciones.
Considera estos datos sobre el promedio de colegiaturas en universidades privadas con grados de 4 años:
Año escolarColegiatura
2011-12$30,210
2012-13$30,970
2013-14$31,570
2014-15$32,140
2015-16$33,180
2016-17$34,100
Podemos ver claramente que los números aumentan cada año de 2011 a 2016. Para hacer una predicción, tenemos que entender la tasa a la que aumentan los números.
Una forma de hacer eso es calcular el porcentaje de cambio interanual. Aquí está la misma tabla con ese cálculo como una tercera columna:
Año escolarColegiatura% de cambio en un año
2011-12$30,210
2012-13$30,9702.5%
2013-14$31,5701.9%
2014-15$32,1401.8%
2015-16$33,1803.2%
2016-17$34,1002.8%
También puede ser útil visualizar los números crecientes en forma de gráfica:
Una gráfica de líneas con años en el eje x y costo de la colegiatura en el eje y. El eje x va de 2011 a 2016 y el eje y va de 30,000 a 35,000. Hay 6 puntos para cada año en el eje y los puntos aumentan a medida que aumentan los años.
Si la tasa fuera exactamente constante (y la gráfica exactamente lineal), entonces podríamos fácilmente predecir el siguiente valor. Sin embargo, en este caso, la tasa varía entre el 1.8% y 3.2%, así que predecir no es tan sencillo.
Vamos a intentar algunas maneras de hacer una predicción para 2017-2018:
EstrategiaCambio predichoColegiatura predicha
Tasa más reciente2.8%$35,054
Promedio de las últimas 3 tasas2.6%$34,986.6
Promedio de todas las tasas2.44%$34,932.04
¿Cuál estrategia crees que es la mejor? Resulta que la colegiatura real para 2017-2018 fue $34,740 dólares. Solo aumentó 1.9%; menos de lo que predijo cualquiera de nuestras estrategias. La más cercana fue la estrategia que promedió todas las tasas.
Los estadistas y los analistas de datos típicamente usan una técnica llamada regresión lineal, la cual encuentra la recta que mejor se ajusta a los datos de modo que podamos hacer predicciones con base en en esa recta. Con estos datos, una regresión lineal también predice un 2.44%.
¿Cómo podríamos hacer predicciones más precisas? Podríamos intentar recopilar más datos e incorporar eso en nuestro modelo, como considerar el efecto en el aumento de colegiaturas por el crecimiento económico en general.
En última instancia, necesitamos entender que una predicción es solamente eso, una predicción. Más datos y mejores técnicas nos ayudan a predecir mejor el futuro, pero nada puede garantizar una predicción perfectamente precisa.

Encontrar correlaciones

Otro objetivo de analizar datos es calcular la correlación, la relación estadística entre dos conjuntos de números.
Una correlación puede ser positiva, negativa o no existir en absoluto. Una gráfica de dispersión es una manera común de visualizar la correlación entre dos conjuntos de números.
Hay una correlación positiva entre la temperatura y las ventas de helados:
Una gráfica de dispersión con temperatura en el eje x y cantidad de ventas en el eje y. El eje x va de 0 grados Celsius a 30 grados Celsius y el eje y va de 0, a800. 19 puntos están dispersos en la gráfica y los puntos en general se mueven hacia arriba a medida que el eje x aumenta.
A medida que aumentan las temperaturas, las ventas de helados también aumentan.
Hay una correlación negativa entre la temperatura y las ventas de sopa:
Una gráfica de dispersión con temperatura en el eje x y cantidad de ventas en el eje y. El eje x va de 0 grados Celsius a 30 grados Celsius y el eje y va de \0a0 a \\800. 19 puntos están dispersos en la gráfica y los puntos en general se mueven hacia arriba a medida que el eje x aumenta.
A medida que aumentan las temperaturas, las ventas de sopa disminuyen.
No hay correlación entre la temperatura y las ventas de sal:
Una gráfica de dispersión con temperatura en el eje x y cantidad de ventas en el eje y. El eje x va de 0 grados Celsius a 30 grados Celsius y el eje y va de \0a0 a \\800. 19 puntos están dispersos en la gráfica, todos entre \350y350 y \\750. No hay pendiente en particular que se ajuste a los puntos, se distribuyen equitativamente en ese rango para todos los valores de temperatura.
El aumento en la temperatura no está relacionado con las ventas de sal.
Los estadistas y analistas de datos suelen expresar la correlación como un número entre minus, 1 y 1, donde minus, 1 es una correlación negativa fuerte, 1 es una correlación positiva fuerte y 0 es que no hay correlación. Puedes aprender más acerca de coeficientes de correlación en Khan Academy.
Una variación de la gráfica de dispersión es una gráfica de burbujas, donde el tamaño de los puntos está basado en una tercera dimensión de los datos.
Aquí hay una gráfica de burbujas de GapMinder que compara el ingreso con la esperanza de vida, en donde cada punto representa un país y su población:
Una gráfica de burbujas con ingresos en el eje x y esperanza de vida en el eje y. El eje x va de 400 a 128,000, usando una escala logarítmica que se duplica en cada marca de graduación. El eje y va de 19 a 86. Las burbujas de varios colores y tamaños están dispersan a través del centro de la gráfica, por lo general apareciendo más arriba a medida que aumenta el eje x.
📉 Opciones de la gráfica: los puntos están coloreados por continente, donde verde representa a América, amarillo Europa, azul África y rojo representa a Asia. El eje y va de 19 a 86 y el eje x va de 400 a 96,000, usando una escala logarítmica que se duplica en cada marca. Una escala logarítmica es de uso común cuando una dimensión de los datos varía de manera extrema.
A medida que los países aumentan en el eje de ingresos, por lo general también aumentan en el eje de la esperanza de vida. Hay una correlación positiva entre el ingreso y la esperanza de vida.
Aquí está otra gráfica de burbujas de GapMinder, esta vez comparando emisiones de CO2 con esperanza de vida:
Una gráfica de burbujas con emisiones de CO2 en el eje x y esperanza de vida en el eje y. El eje x va de 0 a 100, utilizando una escala logarítmica que aumenta en un factor de 10 en cada marca de graduación. El eje y va de 19 a 86. Las burbujas de varios colores y tamaños están dispersas a través del centro de la gráfica, empezando alrededor de una esperanza de vida de 60 y haciéndose por lo general mayores a medida que el eje x aumenta.
📉 Opciones de la gráfica: esta vez, el eje x va de 0.0 a 250, usando una escala logarítmica que sube en un factor de 10 en cada marca de graduación.
Una vez más vemos una correlación positiva: a medida que aumentan las emisiones de CO2, aumenta la esperanza de vida.
Espera un segundo, ¿esto significa que deberíamos ganar más dinero y emitir más dióxido de carbono para garantizar una vida larga? No, no necesariamente.
La correlación no implica causalidad. Una correlación nos dice que hay algún tipo de asociación entre dos conjuntos de números, pero no nos dice por qué hay una asociación.
En este caso, es probable que la correlación se deba a una causa oculta que está impulsando ambos conjuntos de números, como el estándar general de vida.
En otros casos, una correlación podría ser solo una gran coincidencia. Hay muchos ejemplos divertidos en línea de correlaciones espurias.
Encontrar una correlación es solo un primer paso para entender los datos. No te puede decir la causa, pero te puede apuntar en la dirección de posibles causas y experimentos para aprender más.
Comprueba tu comprensión
Our World In Data es un sitio web sin fines de lucro que recolecta y visualiza datos sobre tendencias del mundo.
Su investigación sobre Horas de Trabajo incluye esta gráfica que compara la productividad (PIB por hora trabajada) con el número promedio de horas trabajadas por persona.
Una gráfica de burbujas con productividad en el eje x y horas trabajadas en el eje y. El eje x va de $0/hora a $100/hora. El eje y va de 1,400 a 2,400 horas. Las burbujas de varios colores y tamaños están dispersas en la gráfica, empiezan alrededor de 2,400 horas para $2/horas y en general descienden en la gráfica a medida que el eje x aumenta.
¿Qué describe mejor la relación entre la productividad y las horas de trabajo?
Escoge 1 respuesta:


🙋🏽🙋🏻‍♀️🙋🏿‍♂️¿Tienes alguna pregunta sobre este tópico? Nos encantaría contestarte; ¡simplemente pregunta en el área de preguntas abajo!

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.