Contenido principal
Principios de ciencias de la computación avanzados (AP Computer Science Principles)
Curso: Principios de ciencias de la computación avanzados (AP Computer Science Principles) > Unidad 5
Lección 1: Herramientas para datosCalcular estadísticas básicas
Una vez que tenemos los datos almacenados en un archivo de texto, hoja de cálculo o base de datos, podemos calcular estadísticas que describan el conjunto de datos.
Hay muchas herramientas que podemos utilizar para el análisis de datos, dependiendo de nuestras necesidades y habilidades. Haremos nuestro análisis con dos de las herramientas más populares, hojas de cálculo y SQL, de modo que puedas elegir la que mejor te funcione. Nuestro objetivo es obtener información acerca de los datos, así que cualquier herramienta que pueda producirla es igualmente útil.
Usar funciones estadísticas
Primero lo primero: necesitamos datos. Siempre escuchamos que la comida rápida es mala para nosotros, así que vamos a analizar algunos datos de comida rápida y averiguarlo nosotros mismos. 🍔
Ya cargué información nutricional sobre los elementos del menú de comida rápida en una hoja de cálculo de Google Spreadsheets y en una base de datos de SQL.
Ahora intentemos responder algunas preguntas acerca de los datos...
¿Cuántos datos hay?
La estadística más sencilla acerca un conjunto de datos es el número de renglones. Eso es lo primero que deberíamos averiguar, ya que nos ayuda a entender qué tan completo es (o no) nuestro conjunto de datos, y darle mejor sentido a los resultados que obtengamos.
- En una hoja de cálculo, podemos ver los números de renglón del lado izquierdo o usar la función
COUNTA
. - En SQL, podemos usar la función
COUNT
.
¿Cuáles son los promedios para las columnas numéricas?
Para entender el rango de valores de una columna, podemos calcular métricas estadísticas como el promedio, así como métricas más sofisticadas como la media, la moda y la desviación estándar.
- En una hoja de cálculo, utiliza la función
AVERAGE
en la columna deseada. - En SQL, utiliza la función
AVG
.
¿Cuáles son los valores más grandes y más pequeños de una columna?
Otra manera de entender los datos numéricos es calcular el mínimo y el máximo.
- En una hoja de cálculo, utiliza las funciones
MIN/MAX
en la columna deseada. - En SQL, también utiliza las funciones
MIN/MAX
.
¿Cuál es el valor total de una columna?
Puede ser útil para resumir los valores en una columna. Por ejemplo, muchas empresas registran métricas que están relacionadas con su capacidad para tener éxito financiero, como compras o vistas a páginas, y totalizar esas métricas les ayuda a ver qué tan bien lo están haciendo.
- En una hoja de cálculo, utiliza la función
SUM
en la columna deseada. - En SQL, utiliza la función
SUM
.
Filtrar datos
Cuando queremos calcular estadísticas en un subconjunto de un conjunto de datos, filtramos los datos. Puede ser que no nos importen mucho las hamburguesas, pero realmente queremos saber todo acerca de las malteadas.
El filtro más sencillo es solamente ver los renglones donde una columna sea exactamente igual a un valor particular. Por ejemplo, podemos filtrar el conjunto de datos de comida rápida para solo tener los renglones en donde el "type" (tipo) sea "Milkshake" (malteada).
- En una hoja de cálculo, utiliza las funciones
IF
, comoCOUNTIF
, para contar el número de renglones que sean iguales a un valor. Otras funciones relacionadas sonAVERAGEIF
,SUMIF
,MINIFS
,MAXIFS
. - En SQL, usa las mismas funciones que antes, pero agrega una cláusula
WHERE
con una condición.
Los filtros pueden ser mucho más sofisticados. Un filtro puede utilizar condiciones basadas en si una columna es menor o mayor que un valor, como
calories > 500
. Un filtro también puede combinar condiciones en múltiples columnas, como calories > 500 AND serving_size < 200
. Todo depende de cómo quieras separar y combinar los datos.Resumir por grupo
Todas nuestras estrategias anteriores calculan una sola estadística, ya sea de todo el conjunto de datos o de un subconjunto. A veces queremos ver un resumen de las estadísticas de acuerdo con alguna agrupación de los datos, como el número total de elementos para cada restaurante o el promedio de calorías para cada tipo de comida.
- En una hoja de cálculo, crea una tabla dinámica que agrupe por una columna en particular y muestre la estadística deseada para esa columna.
- En SQL, usa
GROUP BY
en la columna.
Ya que sabemos cómo hacer una tabla que resuma estadísticas por grupo, podemos responder múltiples preguntas a la vez.
🙋🏽🙋🏻♀️🙋🏿♂️¿Tienes alguna pregunta sobre este tópico? Nos encantaría contestarte; ¡simplemente pregunta en el área de preguntas abajo!
¿Quieres unirte a la conversación?
Sin publicaciones aún.