Kerangka pra-pelatihan yang ditulis AI pertama di dunia dibuka sumbernya, Tsinghua dan Mianbi meluncurkan ForgeTrain

BlockBeatNews
Menurut pemantauan Beating, FaceWall Intelligence dan Laboratorium NLP Tsinghua bekerja sama di komunitas OpenBMB untuk merilis kerangka pra-pelatihan model besar produksi yang sepenuhnya ditulis oleh AI, ForgeTrain, dan merilis model kecil sisi perangkat MiniCPM5-1B yang dilatih dengan ForgeTrain. Sebagai contoh pertama yang menunjukkan siklus tertutup "AI membuat AI" dalam proyek, ForgeTrain mengungguli performa Megatron dari Nvidia dalam kondisi perangkat keras yang sama, dan juga mempercepat pelatihan di Huawei Ascend sebesar 10%. Selain itu, MiniCPM5-1B menduduki peringkat pertama dalam daftar model kecil dengan bobot terbuka Artificial Analysis.

Untuk memungkinkan AI secara mandiri membangun infrastruktur pra-pelatihan dasar, FaceWall Intelligence mengusulkan paradigma pemrograman perangkat lunak "Forge Engineering", yang menolak kerangka kerja umum yang kompatibel dengan semua perangkat keras dan tugas, dan beralih menggunakan kemampuan kode rendah biaya AI untuk mengukir kode khusus untuk model dan perangkat keras tertentu secara langsung. Dalam mekanisme pembangunan, ForgeTrain mengadopsi metode tiga tahap: pertama mengumpulkan data kunci dari kerangka pra-pelatihan yang ada untuk membentuk arena pengujian (Harness), kemudian dalam loop otomatis menghasilkan kode kerangka yang konsisten secara biner, dan akhirnya menghilangkan batasan serta melebihi referensi implementasi. Evolusi otomatis ini mewakili tahap L3 hingga L4 dari siklus tertutup "AI membuat AI".

Sebagai model pertama yang dihasilkan oleh ForgeTrain, MiniCPM5-1B memiliki 1,08 miliar parameter, dengan arsitektur inti berbasis desain standar LlamaForCausalLM, secara signifikan menurunkan hambatan integrasi dan penerapan inferensi di downstream. Dalam evaluasi Artificial Analysis, model ini meraih skor 18, mengungguli Qwen3.5-2B yang berukuran 2 miliar dengan skor 16, dan memimpin Qwen3.5-0.8B (11 poin) serta LFM2.5-1.2B-Thinking (8 poin). Model ini mendukung format deployment MLX 4-bit dan GGUF Q4_K_M, dengan bobot yang telah di-quantize ke INT4 hanya sebesar 0,5GB, serta secara native mendukung konteks teks panjang 131.072 token dan inferensi hibrida dual-mode berbasis enable_thinking. Dengan biaya perangkat keras yang sangat rendah, OpenBMB juga merilis secara bersamaan aplikasi pendamping desktop MiniCPM Desk Pet yang berjalan sepenuhnya offline, mendukung respons waktu nyata terhadap aktivitas pengkodean di alat pengembangan seperti Cursor dan pergantian karakter LoRA.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
RugCheckSkepticvip
· 1jam yang lalu
Open source adalah hal yang benar-benar penting, komunitas akan mengajarkan mereka bagaimana berperilaku
Lihat AsliBalas0
RetroRadioIridescencevip
· 1jam yang lalu
Tsinghua NLP+ bermeditasi, pendekatan klasik penggabungan akademik dan industri
Lihat AsliBalas0
ForkliftFayevip
· 1jam yang lalu
Kerangka kerja pra-pelatihan sudah ditulis oleh AI, langkah selanjutnya apakah AI akan menerbitkan makalah
Lihat AsliBalas0
GateUser-34d2b0abvip
· 1jam yang lalu
Kerangka kerja AI menulis AI, rekursi terasa sangat kuat
Lihat AsliBalas0
GateUser-c29c3db9vip
· 1jam yang lalu
Jika siklus tertutup ini berjalan dengan baik, kecepatan perkembangan AI akan menjadi eksponensial
Lihat AsliBalas0
SunshineCollectorvip
· 1jam yang lalu
Model kecil di sisi perangkat menjadi populer, menguntungkan pihak yang peduli privasi
Lihat AsliBalas0
0xLateBreakfastvip
· 1jam yang lalu
Apa yang bisa dilakukan dengan 1B parameter, minta contoh demo skenario nyata
Lihat AsliBalas0
TheNemesisOfFomovip
· 1jam yang lalu
10% percepatan Ascend ada sesuatu, ekosistem chip domestik sedang bergerak
Lihat AsliBalas0