Rakuten merilis model Rakuten AI 3.0, file konfigurasi menunjukkan arsitektur dasar adalah DeepSeek V3

Berita Gate News, pada 17 Maret, Grup Rakuten hari ini merilis Rakuten AI 3.0 dengan nama "Model AI Berkinerja Tinggi Terbesar di Jepang", yang dirilis secara gratis sebagai open source di bawah lisensi Apache 2.0. Model ini menggunakan arsitektur MoE (ahli campuran), dengan total parameter 671B, aktivasi 37B setiap inferensi, jendela konteks 128K, dan dioptimalkan untuk bahasa Jepang, melampaui GPT-4o dalam berbagai pengujian standar bahasa Jepang. Model ini merupakan hasil dari proyek GENIAC yang didukung bersama oleh Kementerian Ekonomi, Perdagangan dan Industri Jepang serta Badan Pengembangan Teknologi Industri Energi Baru dan Terbarukan (NEDO). Pemerintah Jepang memberikan sebagian dana untuk pelatihan model ini. Dalam pengumumannya, Rakuten menyebutkan bahwa model dasar berasal dari "menggunakan hasil terbaik dari komunitas open source", tanpa menyebutkan model spesifik. Komunitas kemudian memeriksa file model yang dipublikasikan di HuggingFace dan menemukan bahwa dalam config.json tertulis model_type: deepseek_v3 dan architectures: DeepseekV3ForCausalLM, dengan total parameter 671B, aktivasi 37B, dan jendela konteks 128K, yang sepenuhnya cocok dengan DeepSeek V3, menunjukkan bahwa model ini adalah hasil fine-tuning data bahasa Jepang berdasarkan DeepSeek V3.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar