Gate Newsメッセージ、4月22日――Hugging Faceは、論文の読み取り、データセットの整理、GPU学習の起動、結果の評価、改善の反復といった一連のワークフローを自律的に完了できるML研究エージェント「ml-intern」をオープンソース化しました。このプロジェクトはHugging Faceのsmolagentsフレームワークに基づいており、CLIとWebベースのインターフェースの両方を提供し、コードはGitHubで公開されています。
ml-internのツールチェーンはHugging Faceのエコシステムを中心に設計されています。arXivとHF Papersから論文を取得し、より深い読みのために引用チェーンをたどります。HF Hub上でデータセットを閲覧し、品質を検証し、学習用にデータを再フォーマットします。さらに、ローカルのGPUリソースが利用できない場合は、HF Jobsを呼び出してクラウドベースの学習タスクを起動します。学習が完了すると、エージェントは評価出力を自動で読み、失敗の原因を診断し、実験を再実行します。デフォルトでは意思決定ループの駆動にClaude Sonnet 4.5を使用し、1回の実行あたり最大300イテレーション、170kトークンを超えた場合は自動でコンテキストを圧縮します。
Hugging Faceは3つのユースケースを示しました。科学的推論のタスクでは、エージェントが引用チェーンからOpenScienceおよびNemoTron-CrossThinkのデータセットを特定し、ARC、SciQ、MMLUから難易度レベル別に7つのバリアントをフィルタリングしたうえで、Qwen3-1.7Bで12ラウンドの教師あり微調整を実行しました。その結果、10時間未満でGPQAスコアが10%から32%へ改善しました。医療アプリケーションでは、エージェントが既存のデータセットが不十分だと判断し、1,100件の合成データサンプルを生成するスクリプトを作成して、それらを学習用に50倍に拡張し、HealthBenchでCodexのパフォーマンスを60%上回りました。競争的な数学のシナリオでは、エージェントがGRPOの学習スクリプトを作成し、HF Spaces経由でA100 GPUで学習を起動した後、報酬が崩壊するのを観測してからアブレーションスタディを実施しました。