Cada dia les grans organitzacions s'estan actualitzant amb les tecnologies que facilitin i millor s'adeqüin a cada empresa, enfrontant-se a grans desafiaments que els permetessin descobrir i analitzar més enllà de les eines que es fan servir de manera quotidiana, és per ells que es va crear el que es coneix com Big Data o en espanyol dades massius que són sistemes d'emmagatzematge en gran escala de dades.
Aquest fenomen d'emmagatzematge està emmarcat en les noves tecnologies d'informació i comunicació. Big Data és allò que ocupa totes les activitats que estan relacionades amb els sistemes que emmagatzemen gran conjunt de dades. Una de les característiques principals és que manipula gran quantitat d'informació, recollint, classificant-los i després emmagatzemant els. La fi d'aquesta recol·lecció és crear informes estadístics per a ús de les organitzacions, ja sigui com a anàlisi de plans de negocis, publicitaris, espionatges, entre d'altres.
El marge d'emmagatzematge ha crescut amb els anys, des del 2008 es mesurava el nivell d'emmagatzematge en petabytes a zettabytes de dades. Els experts periòdicament estan buscant noves mesures d'emmagatzematge pel fet que hi ha certes àrees on cal guardar gran quantitat de dades i els programes existents no són molt òptims.
Hi ha milers d'eines per realitzar i manejar una Big Data, però no totes són iguals, hi ha tres tipus de Dates, les quals són:
- Dades Estructurats: són aquells on les dades tenen una estructura ben particular, com són les dates, els números, entre d'altres. Un exemple d'ells són els fulls de càlcul.
- Dades no estructurats: usualment són dades que tenen un format específic i no es poden emmagatzemar en full de càlculs i molt menys manipular la informació, un exemple del que els documents en PDF.
- Dades semiestructurats: aquest tipus de dades no tenen un format en particular, ja que compten amb els seus propis metadades semiestruturados, exemple d'aquests són els codis HTML.