Contenido principal
Principios de ciencias de la computación avanzados (AP Computer Science Principles)
Curso: Principios de ciencias de la computación avanzados (AP Computer Science Principles) > Unidad 5
Lección 1: Herramientas para datosEncontrar patrones en conjuntos de datos
A menudo recopilamos datos para poder encontrar patrones en los datos, tales como números que tienen una tendencia hacia arriba o correlaciones entre dos conjuntos de números.
Dependiendo de los datos y los patrones, a veces podemos ver ese patrón en una presentación tabular sencilla de los datos. Otras veces, ayuda visualizar los datos en una gráfica, como una serie de tiempo, una gráfica de líneas o una gráfica de dispersión.
Vamos a explorar ejemplos de patrones que podemos encontrar en los datos que nos rodean.
Detectar tendencias
Una cantidad de tendencia es un número que por lo general está aumentando o disminuyendo.
Considera estos datos sobre bebés por mujer en la India de 1955 a 2015:
Año | Bebés por mujer |
---|---|
1960 | 5.91 |
1970 | 5.59 |
1980 | 4.83 |
1990 | 4.05 |
2000 | 3.31 |
2010 | 2.60 |
En este caso, los números decrecen de manera constante década por década, de modo que esta es una tendencia descendente.
Ahora considera estos datos sobre la esperanza de vida en los Estados Unidos de 1920 a 2000:
Año | Esperanza de vida |
---|---|
1920 | 55.38 |
1930 | 59.57 |
1940 | 63.24 |
1950 | 68.07 |
1960 | 69.86 |
1970 | 70.86 |
1980 | 73.91 |
1990 | 75.4 |
2000 | 76.9 |
En este caso, los números aumentan de manera constante década por década, de modo que esta es una tendencia ascendente.
Visualizar con gráficas
Vamos a intentar identificar tendencias ascendentes y descendentes en las gráficas, como en una gráfica de series de tiempo.
En esta gráfica de GapMinder se visualizan los bebés por mujer en la India, con base en los datos para cada año en lugar de cada década:
Hay una clara tendencia descendente en esta gráfica, y parece ser casi una línea recta de 1968 en adelante.
📉 Opciones de la gráfica: el eje x va de 1960 a 2010, y el eje y va de 2.6 a 5.9. ¿La tendencia sería más o menos clara con diferentes opciones para los ejes? Experimenta con las opciones en GapMinder para poder verlo tú mismo.
Esta es una gráfica de la esperanza de vida en GapMinder, otra vez, con base en datos para cada año en lugar de cada década:
La tendencia no es tan claramente ascendente en las primeras décadas, cuando varía hacia arriba y hacia abajo, pero se hace evidente en las siguientes décadas.
📉 Opciones de la gráfica: el eje x va de 1920 a 2000, y el eje y empieza en 55. ¿Cómo afectan estas opciones nuestra interpretación de la gráfica? Intenta cambiar las opciones en GapMinder para poder verlo tú mismo.
Fluctuaciones estadísticas
Google Trends es un sitio que visualiza la popularidad de términos de búsqueda en Google a lo largo del tiempo.
Podemos utilizar Google Trends para investigar la popularidad de "data science" (ciencia de datos), un nuevo campo que combina el análisis estadístico de datos y las habilidades computacionales.
Esta es su gráfica para "data science" de abril de 2014 a abril de 2019:
Esa gráfica muestra una gran fluctuación a lo largo del tiempo (incluyendo grandes caídas en Navidad cada año). A pesar de eso, también muestra un aumento bastante claro a lo largo del tiempo.
Cuando estamos tratando con datos que fluctúan como estos, podemos calcular la "recta de tendencia" y superponerla en la gráfica (o pedirle a una aplicación de gráficas que la agregue por nosotros). Una recta de tendencia suaviza los datos y hace que la tendencia general sea más clara, si es que hay una.
Aquí está la misma gráfica con una recta de tendencia agregada:
La recta de tendencia muestra una tendencia ascendente muy clara, que es lo que esperábamos. Ayuda que elijamos visualizar los datos a lo largo de un periodo de tiempo largo, ya que estos datos fluctúan de manera estacional durante todo el año.
Siempre que analices y visualices datos, considera maneras de recopilar datos que son causa de fluctuaciones. Para datos basados en el tiempo, a menudo hay fluctuaciones a lo largo de la semana (debido a la diferencia entre semana y el fin de semana), y fluctuaciones estacionales.
Hacer predicciones
Una razón por la que analizamos datos es para obtener predicciones.
Considera estos datos sobre el promedio de colegiaturas en universidades privadas con grados de 4 años:
Año escolar | Colegiatura |
---|---|
2011-12 | $30,210 |
2012-13 | $30,970 |
2013-14 | $31,570 |
2014-15 | $32,140 |
2015-16 | $33,180 |
2016-17 | $34,100 |
Podemos ver claramente que los números aumentan cada año de 2011 a 2016. Para hacer una predicción, tenemos que entender la tasa a la que aumentan los números.
Una forma de hacer eso es calcular el porcentaje de cambio interanual. Aquí está la misma tabla con ese cálculo como una tercera columna:
Año escolar | Colegiatura | % de cambio en un año |
---|---|---|
2011-12 | $30,210 | |
2012-13 | $30,970 | 2.5% |
2013-14 | $31,570 | 1.9% |
2014-15 | $32,140 | 1.8% |
2015-16 | $33,180 | 3.2% |
2016-17 | $34,100 | 2.8% |
También puede ser útil visualizar los números crecientes en forma de gráfica:
Si la tasa fuera exactamente constante (y la gráfica exactamente lineal), entonces podríamos fácilmente predecir el siguiente valor. Sin embargo, en este caso, la tasa varía entre el 1.8% y 3.2%, así que predecir no es tan sencillo.
Vamos a intentar algunas maneras de hacer una predicción para 2017-2018:
Estrategia | Cambio predicho | Colegiatura predicha |
---|---|---|
Tasa más reciente | 2.8% | $35,054 |
Promedio de las últimas 3 tasas | 2.6% | $34,986.6 |
Promedio de todas las tasas | 2.44% | $34,932.04 |
¿Cuál estrategia crees que es la mejor? Resulta que la colegiatura real para 2017-2018 fue $34,740 dólares. Solo aumentó 1.9%; menos de lo que predijo cualquiera de nuestras estrategias. La más cercana fue la estrategia que promedió todas las tasas.
Los estadistas y los analistas de datos típicamente usan una técnica llamada regresión lineal, la cual encuentra la recta que mejor se ajusta a los datos de modo que podamos hacer predicciones con base en en esa recta. Con estos datos, una regresión lineal también predice un 2.44%.
¿Cómo podríamos hacer predicciones más precisas? Podríamos intentar recopilar más datos e incorporar eso en nuestro modelo, como considerar el efecto en el aumento de colegiaturas por el crecimiento económico en general.
En última instancia, necesitamos entender que una predicción es solamente eso, una predicción. Más datos y mejores técnicas nos ayudan a predecir mejor el futuro, pero nada puede garantizar una predicción perfectamente precisa.
Encontrar correlaciones
Otro objetivo de analizar datos es calcular la correlación, la relación estadística entre dos conjuntos de números.
Una correlación puede ser positiva, negativa o no existir en absoluto. Una gráfica de dispersión es una manera común de visualizar la correlación entre dos conjuntos de números.
Hay una correlación positiva entre la temperatura y las ventas de helados:
Hay una correlación negativa entre la temperatura y las ventas de sopa:
No hay correlación entre la temperatura y las ventas de sal:
Los estadistas y analistas de datos suelen expresar la correlación como un número entre minus, 1 y 1, donde minus, 1 es una correlación negativa fuerte, 1 es una correlación positiva fuerte y 0 es que no hay correlación. Puedes aprender más acerca de coeficientes de correlación en Khan Academy.
Una variación de la gráfica de dispersión es una gráfica de burbujas, donde el tamaño de los puntos está basado en una tercera dimensión de los datos.
Aquí hay una gráfica de burbujas de GapMinder que compara el ingreso con la esperanza de vida, en donde cada punto representa un país y su población:
📉 Opciones de la gráfica: los puntos están coloreados por continente, donde verde representa a América, amarillo Europa, azul África y rojo representa a Asia. El eje y va de 19 a 86 y el eje x va de 400 a 96,000, usando una escala logarítmica que se duplica en cada marca. Una escala logarítmica es de uso común cuando una dimensión de los datos varía de manera extrema.
A medida que los países aumentan en el eje de ingresos, por lo general también aumentan en el eje de la esperanza de vida. Hay una correlación positiva entre el ingreso y la esperanza de vida.
Aquí está otra gráfica de burbujas de GapMinder, esta vez comparando emisiones de CO2 con esperanza de vida:
📉 Opciones de la gráfica: esta vez, el eje x va de 0.0 a 250, usando una escala logarítmica que sube en un factor de 10 en cada marca de graduación.
Una vez más vemos una correlación positiva: a medida que aumentan las emisiones de CO2, aumenta la esperanza de vida.
Espera un segundo, ¿esto significa que deberíamos ganar más dinero y emitir más dióxido de carbono para garantizar una vida larga? No, no necesariamente.
La correlación no implica causalidad. Una correlación nos dice que hay algún tipo de asociación entre dos conjuntos de números, pero no nos dice por qué hay una asociación.
En este caso, es probable que la correlación se deba a una causa oculta que está impulsando ambos conjuntos de números, como el estándar general de vida.
En otros casos, una correlación podría ser solo una gran coincidencia. Hay muchos ejemplos divertidos en línea de correlaciones espurias.
Encontrar una correlación es solo un primer paso para entender los datos. No te puede decir la causa, pero te puede apuntar en la dirección de posibles causas y experimentos para aprender más.
🙋🏽🙋🏻♀️🙋🏿♂️¿Tienes alguna pregunta sobre este tópico? Nos encantaría contestarte; ¡simplemente pregunta en el área de preguntas abajo!
¿Quieres unirte a la conversación?
- Por que no muestran un video relacionado con esto para poder entender un poco mas(2 votos)
- si tienene un video, pero t aparece buscando el tema directamente como causalidades y correlaciones(0 votos)