Noticiário da Gate, 23 de abril — A equipe de pesquisa da Perplexity publicou um artigo técnico detalhando sua metodologia de pós-treinamento para agentes de busca na web. A abordagem usa dois modelos Qwen3.5 de código aberto (Qwen3.5-122B-A10B e Qwen3.5-397B-A17B) e emprega um pipeline em duas etapas: fine-tuning supervisionado (SFT) para estabelecer aderência a instruções e consistência de linguagem, seguido de aprendizado por reforço online (RL) para otimizar a acurácia da busca e a eficiência do uso de ferramentas.
A fase de RL aproveita o algoritmo GRPO com duas fontes de dados: um conjunto de dados proprietário de perguntas e respostas verificáveis multi-hop construído a partir de consultas iniciais internas que exigem 2–4 saltos de raciocínio com verificação por múltiplos resolvedores, e dados gerais de conversação baseados em rubricas que convertem requisitos de implantação em condições atômicas objetivamente verificáveis para evitar degradação do comportamento do SFT.
O desenho de recompensa emprega agregação filtrada — as pontuações de preferência só contribuem quando a correção do baseline é alcançada (correspondência pergunta-resposta ou quando todos os critérios da rubrica forem atendidos), impedindo que sinais de alta preferência mascarem erros factuais. As penalidades de eficiência usam ancoragem dentro do grupo, aplicando penalidades suaves às chamadas de ferramenta e ao comprimento de geração que excede o baseline de respostas corretas no mesmo grupo.
A avaliação mostra que o Qwen3.5-397B-SFT-RL alcança desempenho de nível superior em benchmarks de busca. Em FRAMES, atinge 57,3% de acurácia com uma única chamada de ferramenta, superando GPT-5.4 em 5,7 pontos percentuais e Claude Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (quatro chamadas de ferramentas), obtém 73,9% de acurácia a US$ 0,02 por consulta, em comparação com 67,8% de acurácia do GPT-5.4 a US$ 0,085 por consulta e 62,4% de acurácia do Sonnet 4.6 a US$ 0,153 por consulta. Os valores de custo são baseados na precificação pública de API de cada provedor e excluem otimizações de caching.