El Big Data o Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos.
El fenómeno del Big Data también es llamado datos a gran escala. En los textos científicos en español con frecuencia se usa directamente el término en inglés Big Data, tal como aparece en el ensayo seminal de Viktor Schönberger Big data: La revolución de los datos masivos.1
La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos.
Las dificultades más habituales vinculadas a la gestión de estas
cantidades de datos se centran en la recolección y el almacenamiento,2 búsqueda, compartición, análisis,3
y visualización.
La tendencia a manipular enormes cantidades de datos
se debe a la necesidad en muchos casos de incluir dicha información para
la creación de informes estadísticos y modelos predictivos utilizados
en diversas materias, como los análisis de negocio, publicitarios, los
datos de enfermedades infecciosas, el espionaje y seguimiento a la
población o la lucha contra el crimen organizado.4
El límite superior de procesamiento ha ido creciendo a lo largo de
los años. De esta forma, los límites fijados en 2008 rondaban el orden
de petabytes a zettabytes de datos.5
Los científicos con cierta regularidad encuentran limites en el
análisis debido a la gran cantidad de datos en ciertas áreas, tales como
la meteorología, la genómica,6 la conectómica, las complejas simulaciones de procesos físicos7 y las investigaciones relacionadas con los procesos biológicos y ambientales,8
Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios.
Los data sets crecen en volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANETs), del constante crecimiento de los históricos de aplicaciones (por ejemplo de los logs), cámaras (sistemas de teledetección), micrófonos, lectores de radio-frequency identification.9 10
La capacidad tecnológica per-cápita a nivel mundial para almacenar
datos se dobla aproximadamente cada cuarenta meses desde los años ochenta.11 Se estima que en 2012 cada día fueron creados cerca de 2,5 trillones de bytes de datos (del inglés quintillion, 2.5×1018).12