Meta Llama 4 no OCI Generative AI: Lançamento!

O Oracle Cloud Infrastructure (OCI) Generative AI dá as boas-vindas a um novo membro emocionante: a família de modelos Meta Llama 4, incluindo Scout e Maverick. Esses modelos incorporam uma arquitetura única de Mixture of Experts (MoE), aumentando significativamente o poder de processamento e a eficiência. Eles são especialmente otimizados para oferecer desempenho superior em diversas áreas, como compreensão multimodal, tarefas multilinguísticas, geração de código e chamadas de ferramentas, e são capazes de impulsionar sistemas de agentes avançados.

Atualmente, esses modelos estão disponíveis nas versões general availability (GA) nas seguintes regiões:

  • On-Demand: ORD (Chicago)
  • Dedicated AI Cluster: ORD (Chicago), GRU (Guarulhos), LHR (London), KIK (Kikuyu)

Principais Destaques da Família Llama 4

Capacidade Multimodal: Quebrando as Fronteiras dos Tipos de Dados

Llama 4 Scout e Maverick não são apenas modelos de linguagem, são verdadeiros mestres multimodais. Eles podem processar e integrar nativamente vários tipos de dados, incluindo texto e imagens, permitindo aplicações de IA mais ricas e abrangentes. Imagine um sistema de IA que pode entender simultaneamente uma descrição textual e uma imagem relacionada, permitindo uma melhor compreensão do contexto e tomadas de decisão mais informadas. Essa capacidade multimodal abre novas possibilidades para tarefas como geração de legendas de imagens, resposta a perguntas visuais e muito mais.

Suporte Multilinguístico: Comunicação Sem Fronteiras

Outro grande destaque da família Llama 4 é seu poderoso suporte multilinguístico. Esses modelos foram treinados em um conjunto de dados contendo 200 idiomas e foram refinados para 12 idiomas principais (árabe, inglês, francês, alemão, hindi, indonésio, italiano, português, espanhol, tagalo, tailandês e vietnamita). Isso significa que eles podem entender e gerar texto em vários idiomas, abrindo portas para aplicações em escala global. É importante notar que a funcionalidade de compreensão de imagens está atualmente disponível apenas em inglês.

Desenvolvimento Eficiente: Menor Ocupação de GPU

Para os desenvolvedores, o Llama 4 Scout foi projetado desde o início para ser mais acessível. Ele pode ser executado com eficiência em uma ocupação de GPU menor, tornando-o uma escolha ideal para ambientes com recursos limitados. Isso significa que, mesmo sem hardware poderoso, os desenvolvedores podem aproveitar os recursos avançados do Llama 4 Scout para acelerar o desenvolvimento e a implantação de aplicações de IA.

Modelos Open Source: Capacitando a Comunidade

A Meta optou por uma postura aberta, lançando ambos os modelos sob a Llama 4 Community License Agreement. Isso significa que os desenvolvedores podem ajustar e implantar livremente, sujeitos a termos de licença específicos. Esse modelo aberto promove a inovação e a colaboração na comunidade de IA, permitindo que mais pessoas participem do desenvolvimento e da aplicação da tecnologia de IA.

Data Limite do Conhecimento

É importante notar que a data limite do conhecimento para os modelos Llama 4 é agosto de 2024. Isso significa que eles podem não conseguir fornecer as informações mais recentes sobre eventos ou informações que ocorreram após essa data.

Importante: A Llama acceptable use policy restringe seu uso na União Europeia (EU).

Llama 4 Scout: Campeão Leve

Arquitetura: Design Inteligente de Parâmetros

O Llama 4 Scout emprega um design de arquitetura inteligente, ativando apenas 17 bilhões de parâmetros de um total de aproximadamente 109 bilhões de parâmetros. Este design utiliza uma mistura de 16 especialistas, alcançando um bom equilíbrio entre desempenho e eficiência. Ao ativar apenas uma parte dos parâmetros, o Scout pode reduzir significativamente os requisitos computacionais, permitindo que ele seja executado em ambientes com recursos limitados.

Janela de Contexto: Capacidade de Processar Textos Longos

O Llama 4 Scout suporta um comprimento de contexto de até 10 milhões de tokens (requer várias GPUs). No entanto, no lançamento GA, o serviço OCI Generative AI suportará um comprimento de contexto de 192k tokens. Mesmo uma janela de contexto de 192k é suficiente para processar textos consideravelmente longos, como capítulos de livros ou relatórios detalhados.

Implantação: Compacto e Poderoso

Um dos objetivos do design do Llama 4 Scout é ser executado de forma eficiente em uma ocupação de GPU menor. Isso o torna uma escolha ideal para uma variedade de cenários de implantação, incluindo dispositivos de borda e ambientes de nuvem com recursos limitados.

Desempenho: Superando a Concorrência

O Llama 4 Scout teve um bom desempenho em vários benchmarks, superando modelos como o Gemma 3 do Google e o Mistral 3.1. Isso prova a capacidade superior do Scout em termos de desempenho, tornando-o uma ferramenta poderosa para várias tarefas de IA.

Llama 4 Maverick: Peso Pesado

Arquitetura: Maior Escala, Mais Poder

Em comparação com o Scout, o Llama 4 Maverick emprega uma escala de arquitetura maior. Da mesma forma, ele ativa 17 bilhões de parâmetros, mas isso é alcançado dentro de uma estrutura maior de aproximadamente 400 bilhões de parâmetros e utiliza 128 especialistas. Essa escala maior confere ao Maverick recursos mais poderosos, permitindo que ele tenha um bom desempenho em tarefas de IA mais complexas.

Janela de Contexto: Memória Super Longa

O Llama 4 Maverick suporta um comprimento de contexto de até 1 milhão de tokens. No lançamento GA, a implantação do OCI suportará um comprimento de contexto de 512k tokens. Uma janela de contexto tão longa permite que o Maverick processe textos extremamente complexos, como livros completos ou coleções de vários documentos.

Implantação: Precisa de Mais Espaço

Devido à sua escala maior, o Llama 4 Maverick requer mais espaço de implantação do que o Scout. No GA, a implantação do Maverick no OCI exigirá aproximadamente o dobro do espaço do Scout.

Desempenho: Comparável aos Melhores Modelos

Em tarefas de geração e inferência de código, o desempenho do Llama 4 Maverick é comparável ao de modelos de ponta, como o GPT-4o da OpenAI e o DeepSeek-V3. Isso prova a posição de liderança do Maverick no campo da IA.

Em resumo, a família Llama 4 representa um avanço significativo no desenvolvimento de modelos de IA. Eles alcançaram melhorias significativas em termos de desempenho, versatilidade e acessibilidade, fornecendo um forte suporte para várias aplicações.

Os clientes do OCI agora podem aproveitar facilmente esses modelos poderosos sem se preocupar com as complexidades do gerenciamento de infraestrutura. Eles podem acessar esses modelos por meio de uma interface de bate-papo, API ou endpoint dedicado, simplificando o processo de desenvolvimento e implantação de aplicações de IA.

O lançamento dos modelos Llama 4 marca o início de uma nova era para o serviço OCI Generative AI. Ao fornecer esses modelos avançados, o OCI está ajudando os clientes a liberar todo o potencial da IA e impulsionar a inovação em todos os setores.