Seidor
Personas trabajando

21 de març de 2024

Què és un Data Lake, el repositori centralitzat de dades i com implementar-lo a AWS

El volum de dades que necessiten administrar les organitzacions és molt heterogeni. Tant en les institucions públiques com les grans organitzacions. Hi ha més tipus de dades que mai i fan falta solucions d'emmagatzematge i anàlisi que siguin ràpides, flexibles i escalables per a la gestió de dades massives. Els Data Lakes (llac de dades) aporten una solució a aquest desafiament.

En aquest article t'explicarem què és un Data Lake i com es pot implementar gràcies a la plataforma al núvol d'Amazon Web Services (AWS).

En què consisteix un data lake?

Un data lake consisteix en un repositori centralitzat de dades, que permet emmagatzemar tant dades estructurades com no estructurades. Es tracta d'una ubicació on podem emmagatzemar i gestionar tot tipus de fitxers, tinguin la font, l'escala o el format que sigui, amb la finalitat d'executar anàlisis, visualitzacions i processaments d'acord amb els objectius de l'organització.

Perquè et facis una idea, els Data Lake s'utilitzen per exemple per a projectes de Big Data Analytics en diferents sectors, des de la salut pública fins a l'I+D+i, i també en diferents àrees de negoci, la segmentació de mercats en màrqueting i vendes o en els Recursos Humans, on es necessiten solucions de Business Analytics.

El Data Lake té una gran importància com a enfocament d'arquitectura de dades, a mesura que les empreses necessiten gestionar una creixent varietat d'informació per implementar anàlisis que els permetin millorar la presa de decisions o conèixer millor el seu mercat.

Diferències entre Data Lake i Data Ware House

La peculiaritat del Data Lake enfront d'altres repositoris unificats com els magatzems de dades (Data Ware House) és que les dades es recullen en estat natural i es transformen en el moment per respondre a les necessitats de processament de l'organització.

La implementació d'un llac de dades permet estalviar temps en el procés de selecció i estructuració de dades brutes, així com la necessitat d'entendre els processos de negoci per crear un model adaptable als usuaris de l'organització.

El Data Lake és una solució més àgil, versàtil i adaptada també a usuaris amb perfils més tècnics, amb necessitats d'anàlisi més avançades.

AWS Data Lake: com crear un llac de dades a AWS

La tecnologia AWS ens ofereix un conjunt de serveis que inclou tant espai d'emmagatzematge al núvol com eines d'anàlisi que permeten combinar dades i gestionar de manera segura i escalable les operacions que desitgem realitzar.

El primer pas que hem de fer és analitzar els objectius i beneficis que es desitgen aconseguir amb la implementació d'un Data Lake amb AWS. Un cop dissenyat el pla, començarem per migrar les dades al núvol de la manera més eficaç i amb la major velocitat de transferència possible, tenint en compte la mida i el volum de dades.

Per al processament de les dades, treballarem amb arquitectura basada en serverless, coordinada mitjançant esdeveniments per a la ingesta, processament i càrrega sota demanda utilitzant com a servei per exemple AWS Lambda o AWS Glue, permetent processar i transformar una gran quantitat de dades de forma eficient, reduint significativament els costos associats a infraestructura de còmput i millorant el rendiment.

L'arquitectura Serverless permet combinar dos tipus de processament de la informació: en mode “batch” (tractant volums de dades per períodes de temps espaiats i executats de manera programada) i en mode stream (en temps real o gairebé real, mitjançant triggers d'accions), quan el projecte requereix de respostes ràpides i gestió d'actualitzacions de diversos fluxos de dades.

Per exemple, amb la funció Lambda podem dur a terme el processament de les transaccions de vendes en una multinacional, determinant en quina planta d'emmagatzematge cal dur a terme l'ordre i permetent la continuïtat del workflow del procés complementari.

Avantatges d'utilitzar Amazon S3 per a Data Lake

Utilitzar Amazon S3 per a un data Lake ens permet tenir una alta escalabilitat, excel·lents costos i un nivell de seguretat adequat, oferint així una solució integral per dur a terme diferents models de processament.

Quan les dades estan emmagatzemades a S3, podem utilitzar el servei AWS Glue per crear un catàleg de dades en el qual els usuaris puguin formular consultes. El procés es complica a l'hora de monitoritzar els fluxos de dades, configurar el control d'accés i definir les polítiques de seguretat.

Entre els serveis de Business Analytics que Amazon ens ofereix, finalment, caldria implementar i executar aquells que es requereixin per trobar la millor solució d'anàlisi. Eines, per exemple, com Amazon Kinesis permeten l'anàlisi i processament de dades streaming, o Amazon Athena per realitzar anàlisi interactiu amb consultes SQL de forma instantània.