Meta Llama: Tudo o que você precisa saber sobre o modelo aberto de IA generativa.

por Robson Caitano

Como acontece com muitas das grandes empresas de tecnologia atualmente, a Meta possui seu próprio modelo de IA generativa, chamado Llama. O Llama é relativamente único entre os principais modelos por ser “aberto”, ou seja, os desenvolvedores podem baixá-lo e usá-lo de acordo com suas necessidades (com certas limitações). Isso contrasta com modelos como o Claude da Anthropic, o Gemini do Google e o Grok da xAI, além da maioria dos modelos ChatGPT da OpenAI, que só podem ser acessados via APIs.

Com o intuito de oferecer opções aos desenvolvedores, a Meta firmou parcerias com fornecedores, incluindo AWS, Google Cloud e Microsoft Azure, para disponibilizar versões hospedadas do Llama na nuvem. Além disso, a empresa publica ferramentas, bibliotecas e receitas na sua “Llama Cookbook” para auxiliar os desenvolvedores a ajustar, avaliar e adaptar os modelos para seu domínio. Com novas gerações como Llama 3 e Llama 4, essas capacidades se expandiram para incluir suporte nativo a multimodalidade e implementações mais amplas na nuvem.

A seguir, apresentamos tudo que você precisa saber sobre o Llama da Meta, desde suas capacidades e edições até onde você pode utilizá-lo. Manteremos essa postagem atualizada conforme a Meta libera atualizações e introduz novas ferramentas para apoiar o uso do modelo.

O que é o Llama?

O Llama é uma família de modelos — não apenas um único modelo. A versão mais recente é o Llama 4, que foi lançado em abril de 2025 e inclui três modelos:

  • Scout: 17 bilhões de parâmetros ativos, 109 bilhões de parâmetros totais e uma janela de contexto de 10 milhões de tokens.
  • Maverick: 17 bilhões de parâmetros ativos, 400 bilhões de parâmetros totais e uma janela de contexto de 1 milhão de tokens.
  • Behemoth: ainda não lançado, mas terá 288 bilhões de parâmetros ativos e 2 trilhões de parâmetros totais.

(Na ciência de dados, tokens são pequenas divisões de dados brutos, como as sílabas “fan”, “tas” e “tic” na palavra “fantástico”.)

A janela de contexto de um modelo refere-se aos dados de entrada (por exemplo, texto) que o modelo considera antes de gerar uma saída (por exemplo, texto adicional). Uma longa janela de contexto pode evitar que os modelos “esqueçam” o conteúdo de documentos e dados recentes, reduzindo a probabilidade de sair do tópico e extrapolar de maneira incorreta. No entanto, janelas de contexto mais longas também podem fazer com que o modelo “esqueça” algumas proteções de segurança e se torne mais propenso a produzir conteúdo que se alinha à conversa, o que levou alguns usuários a um pensamento delirante.

Para referência, a janela de contexto de 10 milhões que o Llama 4 Scout promete equivale aproximadamente ao texto de cerca de 80 romances médios. Já a janela de contexto de 1 milhão do Llama 4 Maverick equivale a cerca de oito romances.

Todos os modelos Llama 4 foram treinados em “grandes quantidades de texto não rotulado, dados de imagem e vídeo” para fornecer uma “ampla compreensão visual”, além de abranger 200 idiomas, segundo a Meta.

O Llama 4 Scout e o Maverick são os primeiros modelos nativamente multimodais de pesos abertos da Meta. Eles foram construídos usando uma arquitetura de “mistura de especialistas” (MoE), que reduz a carga computacional e melhora a eficiência no treinamento e na inferência. O Scout, por exemplo, possui 16 especialistas, enquanto o Maverick possui 128 especialistas.

O Llama 4 Behemoth inclui 16 especialistas e a Meta o considera um professor para os modelos menores.

O Llama 4 baseia-se na série Llama 3, que incluía os modelos 3.1 e 3.2 amplamente utilizados para aplicações ajustadas por instrução e implantação em nuvem.

O que o Llama pode fazer?

Assim como outros modelos de IA generativa, o Llama pode realizar uma variedade de tarefas assistivas, como programar e responder a questões matemáticas básicas, além de resumir documentos em pelo menos 12 idiomas (árabe, inglês, alemão, francês, hindi, indonésio, italiano, português, espanhol, tagalo, tailandês e vietnamita). A maioria das cargas de trabalho baseadas em texto, como a análise de grandes arquivos como PDFs e planilhas, está dentro de sua capacidade, e todos os modelos Llama 4 suportam entrada de texto, imagem e vídeo.

O Llama 4 Scout é projetado para fluxos de trabalho mais longos e análise massiva de dados. O Maverick é um modelo generalista que equilibra poder de raciocínio e velocidade de resposta, sendo adequado para programação, chatbots e assistentes técnicos. O Behemoth, por sua vez, é voltado para pesquisas avançadas, destilação de modelos e tarefas relacionadas a STEM.

Os modelos Llama, incluindo o Llama 3.1, podem ser configurados para aproveitar aplicativos, ferramentas e APIs de terceiros para realizar tarefas. Eles são treinados para usar o Brave Search ao responder perguntas sobre eventos recentes; a API Wolfram Alpha para consultas relacionadas a matemática e ciências; e um interpretador Python para validar código. No entanto, essas ferramentas requerem configuração adequada e não estão automaticamente habilitadas por padrão.

Onde posso usar o Llama?

Se você deseja apenas conversar com o Llama, ele está alimentando a experiência do chatbot da Meta no Facebook Messenger, WhatsApp, Instagram, Oculus e Meta.ai em 40 países. Versões ajustadas do Llama são usadas em experiências de IA da Meta em mais de 200 países e territórios.

Os modelos Llama 4 Scout e Maverick estão disponíveis no Llama.com e nos parceiros da Meta, incluindo a plataforma de desenvolvedores de IA Hugging Face. O Behemoth ainda está em treinamento. Os desenvolvedores que trabalham com o Llama podem baixar, usar ou ajustar o modelo em quase todas as principais plataformas de nuvem. A Meta afirma ter mais de 25 parceiros hospedando o Llama, incluindo Nvidia, Databricks, Groq, Dell e Snowflake. Embora “vender acesso” aos modelos abertamente disponíveis da Meta não seja o modelo de negócios da empresa, ela obtém receita através de acordos de compartilhamento de receita com os anfitriões dos modelos.

Alguns desses parceiros desenvolveram ferramentas e serviços adicionais com base no Llama, incluindo aquelas que permitem que os modelos façam referência a dados proprietários e possibilitem funcionamento com baixa latência.

É importante destacar que a licença do Llama limita como os desenvolvedores podem implantar o modelo: desenvolvedores de aplicativos com mais de 700 milhões de usuários mensais devem solicitar uma licença especial da Meta, que a empresa concederá a seu critério.

Em maio de 2025, a Meta lançou um novo programa para incentivar startups a adotarem seus modelos Llama. O “Llama for Startups” oferece suporte das equipes do Llama da Meta e acesso a potencial financiamento.

Juntamente com o Llama, a Meta fornece ferramentas que visam tornar o modelo “mais seguro” para uso:

  • Llama Guard, uma estrutura de moderação.
  • CyberSecEval, um conjunto de avaliação de riscos de segurança cibernética.
  • Llama Firewall, uma barreira de segurança projetada para permitir a construção de sistemas de IA seguros.
  • Code Shield, que oferece suporte para filtragem de código inseguro gerado por LLMs durante a inferência.

O Llama Guard tenta detectar conteúdo potencialmente problemático que seja inserido ou gerado por um modelo Llama, incluindo conteúdos relacionados a atividades criminosas, exploração infantil, violações de direitos autorais, discurso de ódio, automutilação e abuso sexual. No entanto, não se trata de uma solução infalível, uma vez que as diretrizes anteriores da Meta permitiam que o chatbot se engajasse em conversas sensuais e românticas com menores, e alguns relatos indicam que esses diálogos se transformaram em conversas de natureza sexual. Os desenvolvedores podem personalizar as categorias de conteúdo bloqueado e aplicar os bloqueios a todos os idiomas suportados pelo Llama.

Semelhante ao Llama Guard, o Prompt Guard pode bloquear textos destinados ao Llama, mas apenas aqueles que têm a intenção de “atacar” o modelo e levá-lo a se comportar de maneira indesejável. A Meta afirma que o Llama Guard pode se defender contra prompts explicitamente maliciosos (ou seja, tentativas de contornar os filtros de segurança embutidos do Llama), além de prompts que contêm “entradas injetadas”. O Llama Firewall trabalha para detectar e prevenir riscos, como injeção de prompt, código inseguro e interações arriscadas com ferramentas. O Code Shield ajuda a mitigar sugestões de código inseguro e oferece execução segura de comandos para sete linguagens de programação.

Quanto ao CyberSecEval, trata-se menos de uma ferramenta e mais de uma coleção de benchmarks para medir a segurança do modelo. O CyberSecEval pode avaliar o risco que um modelo Llama representa (pelo menos de acordo com os critérios da Meta) para desenvolvedores de aplicativos e usuários finais em áreas como “engenharia social automatizada” e “escalabilidade de operações cibernéticas ofensivas”.

Limitações do Llama

O Llama apresenta certos riscos e limitações, assim como todos os modelos de IA generativa. Por exemplo, embora seu modelo mais recente tenha recursos multimodais, esses estão principalmente limitados ao idioma inglês por enquanto.

Em um panorama mais amplo, a Meta utilizou um conjunto de dados de e-books e artigos pirateados para treinar seus modelos Llama. Um juiz federal recentemente apoiou a Meta em uma ação de direitos autorais movida contra a empresa por 13 autores de livros, decidindo que o uso de obras protegidas por direitos autorais para treinamento se enquadra na “uso justo”. No entanto, se o Llama reproduzir um trecho protegido e alguém o usar em um produto, essa pessoa pode estar infringindo direitos autorais e ser responsabilizada.

A Meta também treina sua IA de forma controversa com postagens, fotos e legendas do Instagram e Facebook, tornando difícil para os usuários optarem por não participar.

A programação é outra área onde é prudente ter cuidado ao usar o Llama. Isso porque o Llama pode — talvez mais do que seus equivalentes de IA generativa — produzir códigos bugados ou inseguros. Em um benchmark chamado LiveCodeBench, que testa modelos de IA em problemas de programação competitiva, o modelo Llama 4 Maverick da Meta obteve uma pontuação de 40%. Em comparação, o GPT-5 da OpenAI alcançou 85% e o Grok 4 Fast da xAI obteve 83%.

Como sempre, é melhor ter um especialista humano revisando qualquer código gerado por IA antes de incorporá-lo em um serviço ou software.

Finalmente, assim como outros modelos de IA, os modelos Llama ainda são culpados de gerar informações que parecem plausíveis, mas que são falsas ou enganosas, seja em programação, orientação legal ou conversas emocionais com personas de IA.

Esse artigo foi originalmente publicado em 8 de setembro de 2024 e é atualizado regularmente com novas informações.

Artigos Relacionados

Deixe um Comentário