If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Calcular estadísticas básicas

Una vez que tenemos los datos almacenados en un archivo de texto, hoja de cálculo o base de datos, podemos calcular estadísticas que describan el conjunto de datos.
Hay muchas herramientas que podemos utilizar para el análisis de datos, dependiendo de nuestras necesidades y habilidades. Haremos nuestro análisis con dos de las herramientas más populares, hojas de cálculo y SQL, de modo que puedas elegir la que mejor te funcione. Nuestro objetivo es obtener información acerca de los datos, así que cualquier herramienta que pueda producirla es igualmente útil.

Usar funciones estadísticas

Primero lo primero: necesitamos datos. Siempre escuchamos que la comida rápida es mala para nosotros, así que vamos a analizar algunos datos de comida rápida y averiguarlo nosotros mismos. 🍔
Ya cargué información nutricional sobre los elementos del menú de comida rápida en una hoja de cálculo de Google Spreadsheets y en una base de datos de SQL.
Ahora intentemos responder algunas preguntas acerca de los datos...

¿Cuántos datos hay?

La estadística más sencilla acerca un conjunto de datos es el número de renglones. Eso es lo primero que deberíamos averiguar, ya que nos ayuda a entender qué tan completo es (o no) nuestro conjunto de datos, y darle mejor sentido a los resultados que obtengamos.
  • En una hoja de cálculo, podemos ver los números de renglón del lado izquierdo o usar la función COUNTA.
  • En SQL, podemos usar la función COUNT.
Comprueba tu comprensión
¿Cuántos renglones de datos de comida rápida hay?
  • Tu respuesta debe ser
  • un entero, como 6
  • una fracción propia simplificada, como 3/5
  • una fracción impropia simplificada, como 7/4
  • un número mixto, como 1 3/4
  • un decimal exacto, como 0.75
  • un múltiplo de pi, como 12 pi o 2/3 pi

¿Cuáles son los promedios para las columnas numéricas?

Para entender el rango de valores de una columna, podemos calcular métricas estadísticas como el promedio, así como métricas más sofisticadas como la media, la moda y la desviación estándar.
Comprueba tu comprensión
¿Cuál es el número promedio de calorías (redondeado)?
  • Tu respuesta debe ser
  • un entero, como 6
  • una fracción propia simplificada, como 3/5
  • una fracción impropia simplificada, como 7/4
  • un número mixto, como 1 3/4
  • un decimal exacto, como 0.75
  • un múltiplo de pi, como 12 pi o 2/3 pi

¿Cuáles son los valores más grandes y más pequeños de una columna?

Otra manera de entender los datos numéricos es calcular el mínimo y el máximo.
Comprueba tu comprensión
¿Cuál es el tamaño de porción más pequeño?
  • Tu respuesta debe ser
  • un entero, como 6
  • una fracción propia simplificada, como 3/5
  • una fracción impropia simplificada, como 7/4
  • un número mixto, como 1 3/4
  • un decimal exacto, como 0.75
  • un múltiplo de pi, como 12 pi o 2/3 pi

¿Cuál es la mayor cantidad de sodio?
  • Tu respuesta debe ser
  • un entero, como 6
  • una fracción propia simplificada, como 3/5
  • una fracción impropia simplificada, como 7/4
  • un número mixto, como 1 3/4
  • un decimal exacto, como 0.75
  • un múltiplo de pi, como 12 pi o 2/3 pi

¿Cuál es el valor total de una columna?

Puede ser útil para resumir los valores en una columna. Por ejemplo, muchas empresas registran métricas que están relacionadas con su capacidad para tener éxito financiero, como compras o vistas a páginas, y totalizar esas métricas les ayuda a ver qué tan bien lo están haciendo.
Comprueba tu comprensión
Si comieras cada plato del menú en la lista, ¿cuántas calorías serían?
  • Tu respuesta debe ser
  • un entero, como 6
  • una fracción propia simplificada, como 3/5
  • una fracción impropia simplificada, como 7/4
  • un número mixto, como 1 3/4
  • un decimal exacto, como 0.75
  • un múltiplo de pi, como 12 pi o 2/3 pi

Filtrar datos

Cuando queremos calcular estadísticas en un subconjunto de un conjunto de datos, filtramos los datos. Puede ser que no nos importen mucho las hamburguesas, pero realmente queremos saber todo acerca de las malteadas.
El filtro más sencillo es solamente ver los renglones donde una columna sea exactamente igual a un valor particular. Por ejemplo, podemos filtrar el conjunto de datos de comida rápida para solo tener los renglones en donde el "type" (tipo) sea "Milkshake" (malteada).
  • En una hoja de cálculo, utiliza las funciones IF, como COUNTIF, para contar el número de renglones que sean iguales a un valor. Otras funciones relacionadas son AVERAGEIF, SUMIF, MINIFS, MAXIFS.
  • En SQL, usa las mismas funciones que antes, pero agrega una cláusula WHERE con una condición.
Comprueba tu comprensión
¿Cuántas malteadas (milkshakes) hay en el conjunto de datos?
  • Tu respuesta debe ser
  • un entero, como 6
  • una fracción propia simplificada, como 3/5
  • una fracción impropia simplificada, como 7/4
  • un número mixto, como 1 3/4
  • un decimal exacto, como 0.75
  • un múltiplo de pi, como 12 pi o 2/3 pi

Los filtros pueden ser mucho más sofisticados. Un filtro puede utilizar condiciones basadas en si una columna es menor o mayor que un valor, como calories > 500. Un filtro también puede combinar condiciones en múltiples columnas, como calories > 500 AND serving_size < 200. Todo depende de cómo quieras separar y combinar los datos.

Resumir por grupo

Todas nuestras estrategias anteriores calculan una sola estadística, ya sea de todo el conjunto de datos o de un subconjunto. A veces queremos ver un resumen de las estadísticas de acuerdo con alguna agrupación de los datos, como el número total de elementos para cada restaurante o el promedio de calorías para cada tipo de comida.
Captura de pantalla de una tabla dinámica en una hoja de cálculo de Google Spreadsheets con estos datos:
typeAVERAGE of calories
Breaded Chicken Sandwich522
Burger620
Chicken Nuggets275
French Fries314
Grilled Chicken Sandwich408
Milkshake607
  • En una hoja de cálculo, crea una tabla dinámica que agrupe por una columna en particular y muestre la estadística deseada para esa columna.
  • En SQL, usa GROUP BY en la columna.
Ya que sabemos cómo hacer una tabla que resuma estadísticas por grupo, podemos responder múltiples preguntas a la vez.
Comprueba tu comprensión
¿Cuál es el conteo de calorías más alto de los platos del menú de White Castle?
  • Tu respuesta debe ser
  • un entero, como 6
  • una fracción propia simplificada, como 3/5
  • una fracción impropia simplificada, como 7/4
  • un número mixto, como 1 3/4
  • un decimal exacto, como 0.75
  • un múltiplo de pi, como 12 pi o 2/3 pi

¿Cuál restaurante ofrece el plato del menú con el mayor conteo de calorías?


🙋🏽🙋🏻‍♀️🙋🏿‍♂️¿Tienes alguna pregunta sobre este tópico? Nos encantaría contestarte; ¡simplemente pregunta en el área de preguntas abajo!

¿Quieres unirte a la conversación?

Sin publicaciones aún.
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.