Perplexity révèle sa méthode de post-formation pour des agents de recherche web ; le modèle basé sur Qwen3.5 surpasse GPT-5.4 en précision et en coût

Publier le message d’actualité, 23 avril — L’équipe de recherche de Perplexity a publié un article technique décrivant sa méthodologie de post-formation pour les agents de recherche web. L’approche utilise deux modèles open source Qwen3.5 (Qwen3.5-122B-A10B et Qwen3.5-397B-A17B) et met en œuvre un pipeline en deux étapes : un fine-tuning supervisé (SFT) pour établir le respect des instructions et la cohérence linguistique, suivi d’un apprentissage par renforcement en ligne (RL) pour optimiser la précision de recherche et l’efficacité d’utilisation des outils.

La phase RL tire parti de l’algorithme GRPO avec deux sources de données : un jeu de données interne propriétaire vérifiable de questions-réponses multi-étapes construit à partir de requêtes de départ nécessitant 2 à 4 étapes de raisonnement avec vérification par plusieurs solveurs, et des données conversationnelles générales basées sur des grilles d’évaluation qui transforment les exigences de déploiement en conditions atomiques objectivement vérifiables afin de prévenir la dégradation du comportement de la SFT.

La conception des récompenses emploie une agrégation filtrée — les scores de préférence ne contribuent que lorsque la correction de base est atteinte (correspondance question-réponse de base) ou lorsque toutes les conditions de grille d’évaluation sont satisfaites (, empêchant des signaux de préférence élevés de masquer des erreurs factuelles. Les pénalités d’efficacité utilisent un ancrage au sein du groupe, en appliquant des pénalités progressives aux appels d’outils et à la longueur de génération dépassant la référence des réponses correctes dans le même groupe.

L’évaluation montre que Qwen3.5-397B-SFT-RL atteint les meilleures performances de sa catégorie sur des bancs d’essai de recherche. Sur FRAMES, il atteint 57,3 % d’exactitude avec un seul appel d’outil, dépassant GPT-5.4 de 5,7 points de pourcentage et Claude Sonnet 4.6 de 4,7 points de pourcentage. Dans un budget modéré )quatre appels d’outils, il obtient 73,9 % d’exactitude à 0,02 $ par requête, contre 67,8 % d’exactitude pour GPT-5.4 à 0,085 $ par requête et 62,4 % d’exactitude pour Sonnet 4.6 à 0,153 $ par requête. Les chiffres de coût reposent sur la tarification API publique de chaque fournisseur et excluent les optimisations de mise en cache.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire