Kimi K2 Thinking a établi un nouveau record dans l’évaluation standard des capacités de raisonnement, de codage et d’agent.

GateNews

金十数据 8 novembre : Selon le site officiel de Moon’s Dark Side, Kimi K2 Thinking a établi de nouveaux records lors des évaluations de référence en raisonnement, codage et capacités d’agent. K2 Thinking a obtenu un score SOTA de 44,9 % sur le benchmark HLE, 60,2 % sur le test BrowseComp, et 71,3 % sur le test SWE-Bench Verified, démontrant la forte capacité de généralisation en tant que modèle d’agent de réflexion de pointe.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire