DeepSeek lança modelo de ‘atenção esparsa’ que reduz custos de API pela metade

por Robson Caitano

Novo Modelo V3.2-exp da DeepSeek

Na segunda-feira, pesquisadores da DeepSeek lançaram um novo modelo experimental denominado V3.2-exp, que foi desenvolvido para apresentar custos de inferência significativamente menores em operações de longo contexto. A DeepSeek anunciou o modelo por meio de uma publicação na plataforma Hugging Face e também disponibilizou um artigo acadêmico associado no GitHub.

Funcionalidade Principal: DeepSeek Sparse Attention

A característica mais relevante do novo modelo é chamada de DeepSeek Sparse Attention, um sistema complexo que é descrito em detalhes em um diagrama que acompanha o material. Em essência, o sistema utiliza um módulo denominado “indexador relâmpago” para priorizar trechos específicos da janela de contexto. Após essa priorização, um sistema separado, conhecido como “sistema de seleção de tokens de alta precisão”, escolhe tokens específicos a partir desses trechos para serem carregados na janela de atenção limitada do módulo. Quando utilizados em conjunto, esses componentes permitem que os modelos de Sparse Attention operem sobre extensas porções de contexto com cargas de servidor relativamente pequenas.

Benefícios e Testes Preliminares

Para operações de longo contexto, os benefícios proporcionados por esse sistema são significativos. Testes preliminares conduzidos pela DeepSeek indicaram que o custo de uma simples chamada de API poderia ser reduzido em até 50% em situações de longo contexto. Testes adicionais serão necessários para construir uma avaliação mais robusta sobre o desempenho do modelo. No entanto, como o modelo está disponível com pesos abertos e livremente acessível na Hugging Face, não deve demorar para que testes de terceiros possam avaliar as reivindicações feitas no artigo.

Avanços na Redução de Custos de Inferência

O novo modelo da DeepSeek é um exemplo das recentes inovações que buscam resolver o problema dos custos de inferência, que se referem essencialmente aos custos de servidor relacionados ao funcionamento de modelos de IA pré-treinados, distinto dos custos de treinamento. No caso da DeepSeek, os pesquisadores estavam em busca de maneiras de fazer a arquitetura transformadora funcionar de forma mais eficiente, descobrindo que existem melhorias significativas a serem feitas nesse sentido.

Papel da DeepSeek no Cenário Global de IA

A DeepSeek, com sede na China, tem se destacado de maneira inusitada no atual boom da Inteligência Artificial, especialmente entre aqueles que enxergam a pesquisa em IA como uma luta nacionalista entre os Estados Unidos e a China. A empresa chamou a atenção no início do ano ao apresentar seu modelo R1, que foi treinado principalmente por meio de aprendizado por reforço a um custo muito mais baixo do que seus concorrentes americanos. Contudo, o modelo não causou a revolução ampla no treinamento de IA que alguns previam, e a companhia tem estado menos em evidência nos meses seguintes.

Expectativas em Torno do Novo Modelo

A nova abordagem de “atenção esparsa” é improvável de provocar a mesma comoção que o modelo R1 gerou anteriormente. No entanto, ela poderia ainda ensinar aos provedores dos Estados Unidos algumas táticas importantes que auxiliariam na manutenção de custos de inferência baixos.

Artigos Relacionados

Deixe um Comentário