Quatro maneiras como projetamos a infraestrutura da AWS para IA generativa

De inovações de rede a mudanças no design do data center, a AWS continua melhorando sua infraestrutura para oferecer suporte à IA generativa em grande escala.

A photo of a person looking at a laptop device. Operating on that device is the AWS "Amazon CodeWhisperer – Getting Started" course.

7 cursos da AWS para aprender mais sobre IA generativa

1. Oferecendo redes de baixa latência e grande escala

Os modelos generativos de IA exigem grandes quantidades de dados para serem treinados e executados com eficiência. Quanto maior e mais complexo for o modelo, maior será a duração do treinamento. Ao aumentar o tempo de treinamento, você não está apenas aumentando os custos operacionais, mas também retardando a inovação. As redes tradicionais não são suficientes para a baixa latência e a grande escala necessárias para o treinamento generativo de modelos de IA.

Na AWS, trabalhamos constantemente para reduzir a latência da rede e melhorar o desempenho dos clientes. Nossa abordagem é única, pois criamos nossos próprios dispositivos de rede e sistemas operacionais de rede para cada camada do stack, desde a placa de interface de rede até o switch topo de rack, a rede do data center, o roteador voltado para a Internet e nossos roteadores de backbone. Essa abordagem não só nos dá maior controle sobre como melhorar a segurança, a confiabilidade e o desempenho dos clientes, mas também nos permite inovar mais rápido do que outros. Por exemplo, em 2019, apresentamos o Elastic Fabric Adapter (EFA), uma interface de rede personalizada pela AWS que fornece recursos de desvio do sistema operacional para instâncias do Amazon Elastic Compute Cloud (Amazon EC2). Isso permite que os clientes executem aplicativos que exigem altos níveis de comunicação entre nós em grande escala. A EFA usa o Scalable Reliable Datagram (SRD), um protocolo de transporte de rede de alto desempenho e baixa latência que foi projetado especificamente pela AWS, para a AWS.

Mais recentemente, agimos rapidamente para oferecer uma nova rede para cargas de trabalho de IA generativas. Nossa rede UltraCluster de primeira geração, construída em 2020, suportava 4.000 unidades de processamento gráfico, ou GPUs, com uma latência de oito microssegundos entre os servidores. A nova rede, UltraCluster 2.0, suporta mais de 20 mil GPUs com 25% de redução na latência. Ela foi construída em apenas sete meses, e essa velocidade não teria sido possível sem o investimento de longo prazo em nossos próprios dispositivos de rede e software personalizados. Internamente, chamamos o UltraCluster 2.0 de rede “10p10u”, pois ele fornece dezenas de petabits por segundo de taxa de transferência, com um tempo de ida e volta de menos de 10 microssegundos. A nova rede resulta em uma redução de pelo menos 15% no tempo de treinamento de um modelo.

A photo of two people working at a desk. There is a laptop device and a desktop device on the table.

Como os clientes brasileiros da AWS estão abordando a IA generativa em seus negócios

2. Melhorando continuamente a eficiência energética de nossos data centers

Treinar e executar modelos de IA pode consumir muita energia, portanto, os esforços de eficiência são essenciais. A AWS está comprometida em administrar nossos negócios de forma eficiente para reduzir nosso impacto no meio ambiente. Essa não é apenas a coisa certa a fazer pelas comunidades e pelo nosso planeta, mas também ajuda a AWS a reduzir custos e, então, podemos repassar essas economias aos nossos clientes. Por muitos anos, nos concentramos em melhorar a eficiência energética em toda a nossa infraestrutura. Alguns exemplos incluem:

• Otimizar a longevidade e o desempenho do fluxo de ar dos meios de resfriamento em nossos sistemas de resfriamento de data center;

• Usar métodos avançados de modelagem para entender o desempenho de um data center antes de ser construído e para otimizar a forma como posicionamos os servidores em um rack e no data hall, para que possamos maximizar a utilização de energia;

• Construir data centers que consumam menos carbono, incluindo o uso de concreto e aço com baixo teor de carbono e a transição para óleo vegetal tratado com hidrogênio para geradores de reserva;

Uma nova pesquisa da Accenture mostra que esses esforços estão valendo a pena. A pesquisa estima que a infraestrutura da AWS é até 4,1 vezes mais eficiente do que data centers on-premises e, ao ser otimizada na AWS, a pegada de carbono das cargas de trabalho associadas pode ser reduzida em até 99%. Mas não podemos parar por aí à medida que a demanda de energia aumenta.

Os chips de IA realizam cálculos matemáticos em alta velocidade, o que os torna essenciais para modelos de ML. Eles também geram muito mais calor do que outros tipos de chips, portanto, novos servidores de IA que requerem mais de mil watts de potência por chip precisarão ser refrigerados por líquido. No entanto, alguns serviços da AWS utilizam infraestrutura de rede e armazenamento que não requerem refrigeração líquida e, portanto, resfriar essa infraestrutura com líquido seria um uso ineficiente de energia. O design de data center mais recente da AWS integra perfeitamente soluções otimizadas de resfriamento de ar com recursos de refrigeração líquida para os chipsets de IA mais poderosos, como os superchips NVIDIA Grace Blackwell. Esse design de resfriamento flexível e multimodal nos permite extrair o máximo de desempenho e eficiência, seja executando cargas de trabalho tradicionais ou modelos de IA/ML. Nossa equipe projetou nossos data centers, desde layouts de rack até distribuição elétrica e técnicas de resfriamento, para que possamos aumentar continuamente a eficiência energética, independentemente das demandas de computação.

3. Segurança desde o início

Uma das perguntas mais comuns sobre infraestrutura que ouvimos dos clientes quando eles exploram a IA generativa é como proteger seus dados altamente confidenciais. Na AWS, a segurança é nossa maior prioridade e está incorporada em tudo o que fazemos. Nossa infraestrutura é monitorada 24 horas por dia, 7 dias por semana, e quando os dados deixam nossos limites físicos e viajam entre nossos locais de infraestrutura, eles são criptografados na camada de rede subjacente. Nem todas as nuvens são construídas da mesma forma, o que está aumentando o número de empresas que estão migrando seu foco de IA para a AWS.

A AWS foi projetada para ser a infraestrutura de nuvem global mais segura e confiável. Nossa abordagem para proteger a infraestrutura de IA se baseia em três princípios fundamentais: 1) Isolamento completo dos dados de IA do operador de infraestrutura, o que significa que o operador de infraestrutura não deve ter a capacidade de acessar o conteúdo do cliente e os dados de IA, como pesos do modelo de IA e dados processados com modelos; 2) Capacidade dos clientes de isolar os dados de IA de si mesmos, o que significa que os dados permanecem inacessíveis aos próprios usuários e softwares dos clientes; e 3) Comunicações de infraestrutura protegidas, ou seja, a comunicação entre dispositivos em a infraestrutura do acelerador de ML deve seja protegido.

Em 2017, lançamos o AWS Nitro System, que protege o código e os dados dos clientes contra acesso não autorizado durante o processamento, cumprindo o primeiro princípio da infraestrutura segura de IA. O segundo princípio é cumprido por nossa solução integrada entre o AWS Nitro Enclaves e o AWS Key Management Service (AWS KMS). Com o AWS Nitro Enclaves e o AWS KMS, os clientes podem criptografar seus dados confidenciais de IA usando chaves que eles possuem e controlam, armazenar esses dados em um local de sua escolha e transferir com segurança os dados criptografados para um ambiente computacional isolado para inferência. Durante todo esse processo, os dados confidenciais de IA são criptografados e isolados de seus próprios usuários e software em sua instância do Amazon EC2, e os operadores da AWS não podem acessar esses dados. Anteriormente, o AWS Nitro Enclaves operava somente na CPU. Recentemente, demos um passo adiante quando anunciamos nossos planos de estender esse fluxo criptografado de ponta a ponta do Nitro para incluir uma integração de primeira classe com aceleradores de ML e GPUs, cumprindo o terceiro princípio.

4. Chips de IA da AWS

Os chips que alimentam a IA generativa são cruciais, afetando a rapidez, o baixo custo e a sustentabilidade com que você pode treinar e executar modelos.

Por muitos anos, a AWS inovou para reduzir os custos de nossos serviços. Isso não é diferente com a IA. Ao ajudar os clientes a manter os custos sob controle, podemos garantir que a IA seja acessível a clientes de todos os tamanhos e setores. Então, nos últimos anos, desenvolvemos nossos próprios chips de IA, incluindo o AWS Trainium e o AWS Inferentia. Esses chips desenvolvidos especificamente oferecem desempenho de preço superior e tornam mais eficiente em termos de energia treinar e executar modelos generativos de IA. O AWS Trainium foi projetado para acelerar e reduzir o custo do treinamento de modelos de ML em até 50% em relação a outras instâncias comparáveis do Amazon EC2 otimizadas para treinamento, e o AWS Inferentia permite que os modelos gerem inferências mais rapidamente e com menor custo, com desempenho de preço até 40% melhor do que outras instâncias comparáveis do Amazon EC2 otimizadas para inferência. A demanda por nossos chips de IA é bastante alta devido aos benefícios favoráveis de preço-desempenho em relação às alternativas disponíveis. O Trainium2 é nosso chip de IA de terceira geração e estará disponível ainda este ano. O Trainium2 foi projetado para oferecer treinamento até 4 vezes mais rápido do que os chips Trainium de primeira geração e poderá ser implantado em UltraClusters EC2 de até 100 mil chips, possibilitando o treinamento de modelos básicos e de grandes linguagens em uma fração do tempo, ao mesmo tempo em que melhora a eficiência energética em até 2x.

PMEs movidas a dados têm mais sucesso financeiro que concorrentes

PMEs orientadas por dados superam concorrentes financeiramente — e a lacuna tem aumentado