Le premier cadre de pré-entraînement écrit par IA au monde open source, Tsinghua et Mianbi lancent ForgeTrain

BlockBeatNews
Selon le monitoring Beating de Duzhi, Wallface Intelligence et le laboratoire Tsinghua NLP ont conjointement open source la première infrastructure de pré-entraînement de grands modèles de production entièrement écrite par IA dans la communauté OpenBMB, ForgeTrain, et ont publié un petit modèle côté terminal entraîné par ForgeTrain, MiniCPM5-1B.
En tant que premier exemple illustrant la boucle fermée « IA fabriquant IA », ForgeTrain dépasse les performances de Megatron de Nvidia dans des conditions matérielles similaires, et accélère de 10 % lors du pré-entraînement sur Huawei Ascend.
Par ailleurs, MiniCPM5-1B occupe la première place du classement des petits modèles à poids ouverts d’Artificial Analysis.

Afin de permettre à l’IA de construire de manière autonome l’infrastructure de pré-entraînement sous-jacente, Wallface Intelligence propose la paradigme de programmation logicielle « Forge Engineering », abandonnant le cadre universel compatible avec tout matériel et tâche, pour exploiter la capacité de génération de code à faible coût de l’IA afin de forger des codes spécifiques pour des modèles et matériels particuliers sur site.
Concernant la mécanique de construction, ForgeTrain adopte une méthode en trois étapes : d’abord, collecter des données clés à partir du cadre de pré-entraînement existant pour former une zone de test (Harness), puis générer de manière itérative un code de cadre binaire cohérent dans une boucle automatique, enfin, lever les restrictions et dépasser la référence d’implémentation.
Toute cette évolution automatisée correspond aux phases L3 à L4 de la fabrication IA de IA.

En tant que premier modèle produit par ForgeTrain, MiniCPM5-1B possède 1,08 milliard de paramètres, avec une architecture centrale basée sur le standard LlamaForCausalLM, réduisant considérablement la barrière à l’intégration en aval et au déploiement en inférence.
Dans l’évaluation d’Artificial Analysis, le modèle a obtenu un score de 18, surpassant Qwen3.5-2B (16 points) avec 2 milliards de paramètres, et devance Qwen3.5-0.8B (11 points) ainsi que LFM2.5-1.2B-Thinking (8 points).
Le modèle supporte les formats de déploiement MLX 4-bit et GGUF Q4_K_M, avec des poids quantifiés en INT4 ne dépassant pas 0,5 Go, et supporte nativement un contexte de texte long de 131 072 tokens ainsi qu’un raisonnement hybride bimodal basé sur enable_thinking.
Grâce à une consommation matérielle extrêmement faible, OpenBMB a également open source une application compagnon de bureau, MiniCPM Desk Pet, fonctionnant en mode hors ligne pur, supportant la réponse en temps réel aux activités de codage dans des outils de développement comme Cursor, ainsi que le changement de persona LoRA.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
RugCheckSkepticvip
· Il y a 1h
L'open source est la véritable affaire, la communauté leur apprendra à être humains
Voir l'originalRépondre0
RetroRadioIridescencevip
· Il y a 1h
Tsinghua NLP+ face-to-face, la méthode classique de la combinaison académique et industrielle
Voir l'originalRépondre0
ForkliftFayevip
· Il y a 1h
Les cadres de pré-entraînement ont tous été écrits par l'IA, la prochaine étape est-elle que l'IA publie des articles ?
Voir l'originalRépondre0
GateUser-34d2b0abvip
· Il y a 1h
Le cadre d'IA qui écrit de l'IA, la récursivité est à son maximum.
Voir l'originalRépondre0
GateUser-c29c3db9vip
· Il y a 1h
Si cette boucle fermée fonctionne, la vitesse de développement de l'IA sera exponentielle
Voir l'originalRépondre0
SunshineCollectorvip
· Il y a 1h
Le petit modèle côté terminal est en train de s'enrouler, ce qui profite aux partisans de la confidentialité
Voir l'originalRépondre0
0xLateBreakfastvip
· Il y a 1h
À quoi servent 1 milliard de paramètres, demandez un exemple de scénario pratique
Voir l'originalRépondre0
TheNemesisOfFomovip
· Il y a 1h
10% d'accélération Ascend, ça commence à compter, l'écosystème des puces nationales est en mouvement
Voir l'originalRépondre0