Contenido principal
Principios de ciencias de la computación avanzados (AP Computer Science Principles)
Las fuentes de "big data"
¿De dónde proviene "big data"?
A veces, "big data" son datos provenientes de una fuente muy grande. La mayoría de las veces, "big data" es una colección de datos que provienen de muchas fuentes pequeñas. Con 7.5 mil millones de personas en el mundo, y aún más dispositivos computacionales, hay una gran cantidad de datos ahí afuera para recopilar.
Exploremos una variedad de fuentes.
Investigación científica
El Gran Colisionador de Hadrones (LHC), es el acelerador de partículas más grande del mundo, usado por físicos alrededor del mundo para estudiar la naturaleza de la materia. Los experimentos con LHC producen alrededor de 50-75 petabytes cada año, el equivalente de 15-20 millones de películas de alta definición.start superscript, 1, end superscript
La Tierra está rodeada por miles de satélites. NASA EOSDIS es uno de los grupos que recopilan informes de imágenes y sensores de esos satélites, agregando 23 terabytes de datos a su acervo cada día start superscript, 5, end superscript
Gracias al financiamiento del gobierno para proyectos de investigación científica, una gran cantidad de los datos recopilados por proyectos de investigación están abiertamente disponibles en formatos estándar. Esto le permite a investigadores y aficionados de todos lados convertir esos datos en intuiciones y oportunidades valiosas.
Puedes explorar una amplia gama de datos abiertos en Data.gov, una iniciativa del gobierno de EE.UU. Puedes analizar los datos por tí mismo o convertirlos en hermosas visualizaciones, como esta Tierra animada.
Bibliotecas digitales
Las bibliotecas digitales archivan una gran cantidad de documentos, artefactos y medios históricos.
Internet Archive es una organización sin fines de lucro que intenta archivar cada página web en varios puntos de su historia. Nuestro propio sitio web, Khan Academy, ha sido capturado mas de 8000 veces, así que podemos recordar con cariño nuestros primeros días en 2008. Una sola copia de su archivo ocupa más de 30 petabytes de espacio, y puesto que con seguridad no quieren perder sus datos, debe haber múltiples copias de ese archivo de 30 petabytes.squared
Google Books es un proyecto relacionado que ha escaneado más de 25 millones de libros y que espera llegar a escanear todos los libros del mundo. squared Los algoritmos de escaneo usan reconocimiento óptico de caracteres (OCR) para convertir las páginas escaneadas de los libros en texto, y que puedas obtener resultados de libros en búsquedas de Google. El Google Ngram Viewer usa la base de datos de texto escaneada para visualizar la frecuencia en que las palabras han sido usadas por autores en los últimos cientos de años.
Expedientes médicos
Un número cada vez mayor de proveedores de atención médica almacenan datos de pacientes en un registro electrónico de salud (EHR). Un expediente EHR incluye demografía del paciente, problemas médicos, medicamentos recetados/tomados, resultados de laboratorio e imágenes.start superscript, 6, end superscript
Las imágenes médicas son los datos más voluminosos en un EHR, pues ocupan mucho más espacio que el texto. Los hospitales a menudo usan imágenes para diagnosticar lesiones internas y tumores, y pueden usar diferentes tecnologías como imágenes de resonancia magnética (MRI), tomografía de emisión de positrones (PET), y tomografía computarizada de rayos X (CT).
Un escaneo CT crea imágenes transversales de una parte del cuerpo o de todo el cuerpo. La animación de abajo muestra 34 rebanadas de un análisis cerebral CT, desde la parte superior del cráneo hasta la base:
Un escaneo típico CT toma 512 x 512 imágenes y almacena cada píxel como 16 bits. El escaneo cerebral anterior usa 18 MB de espacio de almacenamiento, y un escaneo más detallado o un escaneo de una parte más larga del cuerpo ocuparía aún más espacio. Un solo hospital fácilmente puede generar terabytes de datos de imágenes cada año.start superscript, 7, end superscript
En EE.UU., los proveedores de atención médica deben almacenar todos los datos del paciente de una manera compatible con la Ley de Portabilidad y Responsabilidad de la Información de Salud (HIPAA). Su mecanismo de almacenamiento de datos debe proveer salvaguardas de privacidad para asegurar que solo aquellos proveedores de atención médica autorizados puedan acceder a los datos. También debe tener una copia de respaldo y una estrategia de recuperación de desastres, para asegurar que los datos no se destruyan accidentalmente.start superscript, 8, end superscript
Aplicaciones de cara-al-usuario
Cualquier aplicación con millones de usuarios también está recopilando "big data" sobre las interacciones de sus usuarios.
Se reporta que en 2014 Facebook generó 4 nuevos petabytes de datos cada día.start superscript, 4, end superscript Esa cantidad de datos representa desafíos enormes para su procesamiento, almacenamiento y privacidad.
Examinaremos algunos de los desafíos de tratar con conjuntos grandes de datos en el próximo artículo.
🤔 ¿Qué otras fuentes de "big data" se te ocurren? Se están convirtiendo tus datos en parte de una gran colección de "big data" en algún lado?
🙋🏽🙋🏻♀️🙋🏿♂️¿Tienes alguna pregunta sobre este tema? Nos encantaría contestarte; ¡simplemente pregunta en el área de preguntas abajo!
¿Quieres unirte a la conversación?
Sin publicaciones aún.