Seidor
AWS

26 de março de 2024

Amazon com o Big Data no ponto de mira

O que é Big Data?

O Big Data é um termo que descreve o grande volume de dados, tanto estruturados quanto não estruturados, que inundam os negócios todos os dias. Mas não é a quantidade de dados que é importante. O que importa com o Big Data é o que as organizações fazem com os dados.

E se caracteriza pelas 3V:

  • Volume: vai desde terabytes até petabytes de dados.
  • Variedade: inclui dados de uma ampla variedade de origens e formatos (por exemplo, registros web, interações nas redes sociais, transações online e de comércio eletrônico, transações financeiras, etc).
  • Velocidade: cada vez mais, as empresas têm requisitos exigentes desde o momento em que os dados são gerados até o momento em que informações processáveis são entregues aos usuários. Portanto, é necessário coletar, armazenar, processar e analisar os dados em períodos relativamente curtos, que vão desde uma vez ao dia até em tempo real.

Por que é importante o big data?

As empresas utilizam big data em seus sistemas para melhorar as operações, oferecer um melhor serviço ao cliente, criar campanhas de marketing personalizadas e tomar outras ações que, em última análise, podem aumentar a receita e os lucros. As empresas que o utilizam de maneira eficaz têm uma vantagem competitiva potencial sobre aquelas que não o fazem, pois podem tomar decisões comerciais mais rápidas e bem fundamentadas.
A coleta de grandes quantidades de dados e a busca de tendências e padrões dentro dos dados permitem que as empresas se movam com mais agilidade, sem problemas e de maneira eficiente. Também lhes permite eliminar as áreas problemáticas antes que os problemas acabem com seus benefícios ou sua reputação.

A análise de Big Data ajuda as organizações a aproveitar seus dados e utilizá-los para identificar novas oportunidades.

Novo serviço e melhorias em instâncias da AWS para Big Data

Na Amazon, o tema do Big Data é levado muito a sério. Continuamente surgem melhorias para facilitar o funcionamento de infraestruturas destinadas a isso. Hoje, em particular, falaremos sobre dois avanços. As novas instâncias chamadas D2 baseadas em EC2 (Elastic Compute Cloud) e o serviço Amazon Machine Learning. As primeiras com o objetivo de poder abastecer o grande volume de dados e o segundo para poder gerenciar com mais clareza e reduzir a complexidade de tanta informação.

A nova geração de instâncias de grande armazenamento para EC2

A Amazon lançou uma nova versão das instâncias de alta densidade de armazenamento chamadas D2, que substituirão as HS1. As novas instâncias foram projetadas para fornecer maior capacidade de memória e CPU do que as HS1 da geração anterior. Além disso, também para fornecer uma taxa muito alta de E/S para o disco e com preços muito competitivos.

Na tabela a seguir estão as diferentes instâncias D2 que a AWS comercializa. Nela, pode-se observar que são capazes de fornecer velocidades de leitura de até 3500 Mb/seg e uma capacidade de armazenamento de 48 TB.

Para obter o máximo desempenho, a Amazon recomenda utilizar instâncias que executem alguma distribuição de Linux com uma versão do kernel igual ou superior à 3.8 e a última versão da Amazon Linux AMI.

Gere modelos de previsão com Amazon Machine Learning

AWS não poderia ficar para trás. Assim como a Microsoft fez com o Azure Machine Learning e a IBM com o Watson, eles criaram o serviço Amazon Machine Learning para a criação de modelos de ML e geração de previsões, com o objetivo de separar as informações úteis das montanhas de dados que às vezes são difíceis de explorar por razões de complexidade ou tempo.

Para as empresas que queiram tirar proveito do Big Data, Amazon Machine Learning lhes fornecerá informações muito úteis. Poderão saber qual é o processo de negócio mais eficaz ou qual ação nas redes sociais pode gerar mais clientes. Para simplificar o trabalho com os dados já armazenados na nuvem, o serviço está integrado com S3 (Simple Storage Service), Redshift e RDS (Relational Database Service).

Para beneficiar-se das vantagens que este serviço oferece, devem ser realizados três passos na implementação do serviço. Em primeiro lugar está a construção do modelo preditivo usando Amazon S3 ou Redshift. Esse modelo deve ser validado e otimizado e, finalmente, será necessário compará-lo e testá-lo com outros modelos de predição. O serviço é projetado para desenvolvedores que não tenham grande experiência no campo de modelos de predição. Ele fornece um conjunto de ferramentas para desenvolver aplicações destinadas à análise de dados.

Segundo a Amazon, o serviço pode ser utilizado para diferentes objetivos. Entre eles, a detecção de fraude, ou melhorar o atendimento ao cliente com conteúdo personalizado. Além disso, identificar tendências nas campanhas de marketing e a classificação de documentos. O serviço dispõe de tecnologia altamente escalável e pode gerar mais de 50 bilhões de previsões semanais.

Amazon Web Services fornece um portfólio amplo e totalmente integrado de serviços de computação em nuvem que ajudam você a criar, proteger e implementar aplicações de big data. Com a AWS, não é necessário provisionar hardware nem manter e escalar infraestrutura, de modo que você pode concentrar seus recursos em descobrir novas informações. Além disso, novas capacidades e características são constantemente adicionadas, para que você sempre possa se beneficiar das tecnologias mais recentes sem compromissos de investimentos a longo prazo.