Des chercheurs appliquent l’algorithme MCTS d’AlphaGo à la génération vidéo, dépassant Sora de 18% en longueur

D’après Beating, des chercheurs de l’Université de Waterloo et de l’Université Brown ont présenté Planning at Inference, un nouveau cadre d’optimisation à l’inférence dans un article soumis à l’ICLR 2026. Le cadre applique pour la première fois l’algorithme de Monte Carlo Tree Search (MCTS) d’AlphaGo à la génération de vidéos longues, afin de résoudre les problèmes de dérive sémantique et d’accumulation d’erreurs des méthodes de génération séquentielle traditionnelles.

Lors d’expériences menées avec le modèle Cosmos-Predict2 open-source de Nvidia, Planning at Inference a généré des vidéos cohérentes dépassant 20 secondes. Le système a surpassé des méthodes de référence comme Greedy Search et Beam Search en matière de persistance des objets, de cohérence temporelle et d’alignement texte-vidéo. Par rapport à des modèles fermés de pointe du secteur, les vidéos générées par cette méthode étaient 18% plus longues que Sora et 47% plus longues que Kling, avec une fidélité visuelle comparable. En tant qu’optimisation d’inférence « plug-and-play », le cadre ne nécessite aucune reprise de l’entraînement du modèle sous-jacent.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire