If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Las fuentes de "big data"

¿De dónde proviene "big data"?
A veces, "big data" son datos provenientes de una fuente muy grande. La mayoría de las veces, "big data" es una colección de datos que provienen de muchas fuentes pequeñas. Con 7.5 mil millones de personas en el mundo, y aún más dispositivos computacionales, hay una gran cantidad de datos ahí afuera para recopilar.
Exploremos una variedad de fuentes.

Investigación científica

El Gran Colisionador de Hadrones (LHC), es el acelerador de partículas más grande del mundo, usado por físicos alrededor del mundo para estudiar la naturaleza de la materia. Los experimentos con LHC producen alrededor de 50-75 petabytes cada año, el equivalente de 15-20 millones de películas de alta definición.1
Imágen de 3 dimensiones de una colisión de fotones. Etiquetada "Experiment CMS en el LHC, CERN, Datos grabados: 2012-Mayo-13"
Colisión de dos fotones en un experimento LHC. Fuente de la imágen: CERN.
La Tierra está rodeada por miles de satélites. NASA EOSDIS es uno de los grupos que recopilan informes de imágenes y sensores de esos satélites, agregando 23 terabytes de datos a su acervo cada día 5
Una representación artística de la Tierra con 16 satélites en órbita a su alrededor. Cada satélite tiene un nombre diferente.
Flotilla de satelites de ciencias de la tierra de la NASA. Fuente de la imágen: NASA
Gracias al financiamiento del gobierno para proyectos de investigación científica, una gran cantidad de los datos recopilados por proyectos de investigación están abiertamente disponibles en formatos estándar. Esto le permite a investigadores y aficionados de todos lados convertir esos datos en intuiciones y oportunidades valiosas.
Puedes explorar una amplia gama de datos abiertos en Data.gov, una iniciativa del gobierno de EE.UU. Puedes analizar los datos por tí mismo o convertirlos en hermosas visualizaciones, como esta Tierra animada.

Bibliotecas digitales

Las bibliotecas digitales archivan una gran cantidad de documentos, artefactos y medios históricos.
Internet Archive es una organización sin fines de lucro que intenta archivar cada página web en varios puntos de su historia. Nuestro propio sitio web, Khan Academy, ha sido capturado mas de 8000 veces, así que podemos recordar con cariño nuestros primeros días en 2008. Una sola copia de su archivo ocupa más de 30 petabytes de espacio, y puesto que con seguridad no quieren perder sus datos, debe haber múltiples copias de ese archivo de 30 petabytes.2
La captura de pantalla del Internet Archive de khanacademy.org, muestra la línea de tiempo de las capturas en la parte superior de la página, y la antigua página de inicio de Khan Academy debajo de la línea de tiempo.
Khan Academy el 30 de diciembre de 2008, la quinta de 8.974 capturas.
Google Books es un proyecto relacionado que ha escaneado más de 25 millones de libros y que espera llegar a escanear todos los libros del mundo. 2 Los algoritmos de escaneo usan reconocimiento óptico de caracteres (OCR) para convertir las páginas escaneadas de los libros en texto, y que puedas obtener resultados de libros en búsquedas de Google. El Google Ngram Viewer usa la base de datos de texto escaneada para visualizar la frecuencia en que las palabras han sido usadas por autores en los últimos cientos de años.
Captura de pantalla de Google Ngram Viewer para las palabras "computer", "telegram", y "typewriter". El gráfico va de 1840 a 2000, y muestra una línea de rápido crecimiento para "computer" y líneas decrecientes más pequeñas para "telegram" y "typewriter".
Google Ngram Viewer para "computer ", "typewriter", "telegram".

Expedientes médicos

Un número cada vez mayor de proveedores de atención médica almacenan datos de pacientes en un registro electrónico de salud (EHR). Un expediente EHR incluye demografía del paciente, problemas médicos, medicamentos recetados/tomados, resultados de laboratorio e imágenes.6
Las imágenes médicas son los datos más voluminosos en un EHR, pues ocupan mucho más espacio que el texto. Los hospitales a menudo usan imágenes para diagnosticar lesiones internas y tumores, y pueden usar diferentes tecnologías como imágenes de resonancia magnética (MRI), tomografía de emisión de positrones (PET), y tomografía computarizada de rayos X (CT).
Un escaneo CT crea imágenes transversales de una parte del cuerpo o de todo el cuerpo. La animación de abajo muestra 34 rebanadas de un análisis cerebral CT, desde la parte superior del cráneo hasta la base:
GIF animado de escaneos de CT de un cerebro, comenzando en la parte superior del cráneo y terminando en la base.
Un escaneo típico CT toma 512 x 512 imágenes y almacena cada píxel como 16 bits. El escaneo cerebral anterior usa 18 MB de espacio de almacenamiento, y un escaneo más detallado o un escaneo de una parte más larga del cuerpo ocuparía aún más espacio. Un solo hospital fácilmente puede generar terabytes de datos de imágenes cada año.7
En EE.UU., los proveedores de atención médica deben almacenar todos los datos del paciente de una manera compatible con la Ley de Portabilidad y Responsabilidad de la Información de Salud (HIPAA). Su mecanismo de almacenamiento de datos debe proveer salvaguardas de privacidad para asegurar que solo aquellos proveedores de atención médica autorizados puedan acceder a los datos. También debe tener una copia de respaldo y una estrategia de recuperación de desastres, para asegurar que los datos no se destruyan accidentalmente.8

Aplicaciones de cara-al-usuario

Cualquier aplicación con millones de usuarios también está recopilando "big data" sobre las interacciones de sus usuarios.
Se reporta que en 2014 Facebook generó 4 nuevos petabytes de datos cada día.4 Esa cantidad de datos representa desafíos enormes para su procesamiento, almacenamiento y privacidad.
Examinaremos algunos de los desafíos de tratar con conjuntos grandes de datos en el próximo artículo.
🤔 ¿Qué otras fuentes de "big data" se te ocurren? Se están convirtiendo tus datos en parte de una gran colección de "big data" en algún lado?

🙋🏽🙋🏻‍♀️🙋🏿‍♂️¿Tienes alguna pregunta sobre este tema? Nos encantaría contestarte; ¡simplemente pregunta en el área de preguntas abajo!

¿Quieres unirte a la conversación?

Sin publicaciones aún.
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.