Seidor
AWS

26 de març de 2024

Amazon amb el Big Data en el punt de mira

Què és Big data?

El Big Data és un terme que descriu el gran volum de dades, tant estructurades com no estructurades, que inunden els negocis cada dia. Però no és la quantitat de dades el que és important. El que importa amb el Big Data és el que les organitzacions fan amb les dades.

I es caracteritza per les 3V:

  • Volum: va des de terabytes fins a petabytes de dades.
  • Varietat: inclou dades d'una àmplia varietat d'orígens i formats (p. ex., registres web, interaccions a les xarxes socials, transaccions en línia i de comerç electrònic, transaccions financeres, etc.).
  • Velocitat: cada vegada més, les empreses tenen requisits exigents des del moment en què es generen les dades fins al moment en què es lliura informació processable als usuaris. Per tant, és necessari recopilar, emmagatzemar, processar i analitzar les dades en períodes relativament curts, que van des d'una vegada al dia fins en temps real.

Per què és important el big data?

Les empreses utilitzen big data en els seus sistemes per millorar les operacions, oferir un millor servei al client, crear campanyes de màrqueting personalitzades i prendre altres accions que, en última instància, poden augmentar els ingressos i els beneficis. Les empreses que l'utilitzen de manera efectiva tenen un avantatge competitiu potencial sobre aquelles que no ho fan perquè poden prendre decisions comercials més ràpides i millor fonamentades.
La recopilació de grans quantitats de dades i la cerca de tendències i patrons dins de les dades permet que les empreses es moguin amb més agilitat, sense problemes i de manera eficient. També els permet eliminar les àrees problemàtiques abans que els problemes acabin amb els seus beneficis o la seva reputació.

L'anàlisi de Big Data ajuda les organitzacions a aprofitar les seves dades i utilitzar-les per identificar noves oportunitats.

Nou servei i millores en instàncies d'AWS per a Big Data

A Amazon es prenen molt seriosament el tema del Big Data. Continuament surten millores per poder facilitar el funcionament d'infraestructures destinades a això. Avui en concret us parlarem de dos avenços. Les noves instàncies anomenades D2 basades en EC2 (Elastic Compute Cloud) i el servei Amazon Machine Learning. Les primeres amb la finalitat de poder abastir el gran volum de dades i el segon per poder gestionar amb més claredat i reduir la complexitat de tanta informació.

La nova generació d'instàncies de gran emmagatzematge per a EC2

Amazon ha llançat una nova versió de les instàncies d'alta densitat d'emmagatzematge anomenades D2, les quals passaran a substituir les HS1. Les noves instàncies han estat dissenyades per proporcionar major capacitat de memòria i cpu que les HS1 de l'anterior generació. Així mateix també per abastir d'una molt alta taxa d'E/S al disc i amb uns preus molt competitius.

A la següent taula hi ha les diferents instàncies D2 que AWS comercialitza. En ella es pot observar que són capaces de proveir velocitats de lectura de fins a 3500 Mb/sec i una capacitat d'emmagatzematge de 48 TB.

Per obtenir el màxim rendiment, Amazon recomana utilitzar instàncies que corrin amb alguna distribució de Linux amb una versió del kernel igual o superior a la 3.8 i l'última versió de l'Amazon Linux AMI.

Genera models de predicció amb Amazon Machine Learning

AWS no es podia quedar enrere. Tal com van fer Microsoft amb Azure Machine Learning com IBM amb Watson, han creat el servei Amazon Machine Learning per a la creació de models de ML i generació de prediccions, amb la finalitat de separar la informació útil de les muntanyes de dades que de vegades són difícils d'explotar per raons de complexitat o temps.

Per a les empreses que vulguin treure rendiment al Big Data, Amazon Machine Learning els proporcionarà informació molt útil. Podran conèixer quin és el procés de negoci més eficaç o quina acció a les xarxes socials pot generar més clients. Per simplificar la feina amb les dades ja emmagatzemades al núvol, el servei està integrat amb S3 (Simple Storage Service), Redshift i RDS (Relational Database Service).

Per beneficiar-se dels avantatges que dóna aquest servei, s'han de realitzar tres passos en la implementació del servei. En primer lloc hi ha la construcció del model predictiu utilitzant Amazon S3 o Redshift. Aquest model s'ha de validar i optimitzar i finalment serà necessari comparar-lo i provar-lo amb altres models de predicció. El servei està dissenyat per a desenvolupadors que no tinguin una gran experiència en el camp de models de predicció. Els proporciona un conjunt d'eines per desenvolupar aplicacions destinades a l'anàlisi de dades.

Segons ho indica Amazon, el servei es pot utilitzar per a diferents objectius. Entre ells, la detecció de frau, o millorar el servei al client amb contingut personalitzat. Així mateix, marcar la tendència de les campanyes de màrqueting i la classificació de documents. El servei disposa de tecnologia altament escalable i pot arribar a generar més de 50 mil milions de previsions setmanals.

Amazon Web Services proporciona una cartera àmplia i totalment integrada de serveis d'informàtica al núvol que t'ajuden a crear, protegir i implementar les aplicacions de big data. Amb AWS, no és necessari aprovisionar maquinari ni mantenir i escalar infraestructura, de manera que pots concentrar els teus recursos en descobrir informació nova. A més, s'afegeixen noves capacitats i característiques constantment, per la qual cosa sempre pots beneficiar-te de les tecnologies més recents sense compromisos d'inversions a llarg termini.