Codex surpasse les DRL dans la commande fluide avec du code manuscrit, pour un coût total de 14 dollars

D’après Beating, le chercheur en post-entraînement d’OpenAI, Paul Garnier, a démontré que Codex 5,5 peut générer un code de contrôle interprétable, surpassant des références d’apprentissage par renforcement profond (deep reinforcement learning) dans des applications de mécanique des fluides. Plutôt que d’entraîner des réseaux de neurones, Garnier a utilisé le modèle pour affiner itérativement des scripts Python en analysant des simulations de physique, obtenant de meilleures performances dans plus de la moitié des scénarios testés.

Les règles de contrôle générées par l’IA étaient interprétables physiquement, par exemple « retarder l’injection de jet lorsque la courbure locale dépasse un seuil ». Contrairement aux boîtes noires de réseaux de neurones, l’approche basée sur du code s’est révélée robuste lors de changements de distribution ; lorsque la durée des tests a été prolongée par quatre, les modèles DRL traditionnels se sont effondrés tandis que le code informé par la physique est resté stable. La mise en œuvre de la stratégie de contrôle complète a nécessité 21,25 millions de tokens, pour un total inférieur à 14 $.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire