AWS Data Lake: cómo crear un lago de datos en AWS
La tecnología AWS nos ofrece un conjunto de servicios que incluye tanto espacio de almacenamiento en la nube como herramientas de análisis que permitan combinar datos y gestionar de manera segura y escalable las operaciones que deseamos realizar.
El primer paso que debemos dar es analizar los objetivos y beneficios que se desean lograr con la implementación de un Data Lake con AWS. Una vez diseñado el plan, empezaremos por migrar los datos a la nube de la manera más eficaz y con la mayor velocidad de transferencia posible, teniendo en cuenta el tamaño y el volumen de datos.
Para el procesamiento de los datos, trabajaremos con arquitectura basada en serverless, coordinada mediante eventos para la ingesta, procesamiento y carga bajo demanda utilizando como servicio por ejemplo AWS Lambda o AWS Glue, permitiendo procesar y transformar una gran cantidad de datos de forma eficiente, reduciendo significativamente los costes asociados a infraestructura de computo y mejorando el rendimiento.
La arquitectura Serverless permite combinar dos tipos de procesamiento de la información: en modo “batch” (tratando volúmenes de datos por períodos de tiempo espaciados y ejecutados de manera programada) y en modo stream (en tiempo real o casi real, mediante triggers de acciones), cuando el proyecto requiere de respuestas rápidas y gestión de actualizaciones de diversos flujos de datos.
Por ejemplo, con la función Lambda podemos llevar a cabo el procesamiento de las transacciones de ventas en una multinacional, determinando en qué planta de almacenaje hay que llevar a cabo la orden y permitiendo la continuidad del workflow del proceso complementario.