Para pemimpin industri di Konferensi Beijing Zhiyuan memperdebatkan kekhawatiran akan homogenisasi model AI, saat performa evaluasi model-model papan atas semakin menyatu dan kesenjangan antara model sumber terbuka serta sumber tertutup diyakini hanya sekitar 3-6 bulan. Chen Weiguang, Managing Partner Bluerun Ventures, Wang Zhongyuan, Direktur Zhiyuan Research Institute, Wang He, Galaxy General Founder dan CTO, serta Li Dahai, CEO MiniMax, membahas sumber nilai jangka panjang di era large model. Panel membahas apakah model AI dan industri kecerdasan berbasis wujud (embodied intelligence) bergerak menuju homogenisasi serta di mana keunggulan kompetitif yang bertahan lama berada. Pengamat industri memandang talenta sebagai kunci dalam persaingan AI AS-Tiongkok, dengan embodied intelligence mewakili peluang Tiongkok untuk mencetak momen terobosan yang sebanding dengan AlphaGo dan ChatGPT.

Pemimpin Industri Menolak Kekhawatiran Homogenisasi di Konferensi Zhiyuan

Wang Zhongyuan menyatakan bahwa meski berbagai leaderboard pemimpin large model membuat pusing dan peringkatnya sendiri tidak sepenuhnya kredibel, perusahaan model yang berani melakukan demo langsung dan masuk skenario dunia nyata menunjukkan rasa percaya diri serta dapat menemukan data closed loop dalam skenario riil. Ia menyatakan bahwa secara keseluruhan iterasi performa large model masih jauh dari mencapai kemacetan, rute teknis belum berkumpul, dan masa depan mungkin menghadirkan banyak pola, termasuk “satu kekuatan super dengan banyak pemain kuat” atau “beberapa raksasa berdiri berdampingan”. Ia menilai klaim bahwa industri akan bergerak menuju homogenisasi sebagai sesuatu yang masih terlalu dini.

Galaxy General Founder Wang He memperluas diskusi dari large language model ke embodied intelligence. Ia menyatakan bahwa large language model sendiri masih memiliki banyak variabel, dengan ketidakpastian yang lebih besar pada kemampuan pemahaman multimodal dan video. Wang menggambarkan embodied intelligence saat ini berada pada “tahap dari GPT-1 ke GPT-2”, dengan industri baru saja memasuki periode akselerasi.

Wang He menguraikan moat kompetitif embodied intelligence sebagai sistem yang lengkap, mencakup pasokan sumber data (data sintetis, data manusia, data robot), kapabilitas penyempurnaan data, iterasi perangkat keras dan co-design perangkat lunak-perangkat keras, kapabilitas fusi throughput model, serta kapabilitas pengantaran perangkat keras pada tahap akhir. Ia menggambarkan ini sebagai sistem komprehensif “hexagonal warrior”, menyatakan bahwa tidak ada produk matang tipe seperti ini di seluruh dunia dan moat-nya tetap sangat dalam.

MiniMax CEO Li Dahai mengutip kesuksesan komersial Anthropic sebagai bukti langsung melawan homogenisasi. Ia menyatakan bahwa large model tidak bisa sekadar “talenta berbentuk T” dengan kemampuan horizontal umum saja, tetapi harus memiliki kekuatan vertikal. Li menjelaskan bahwa Anthropic menjadi fenomena global karena membangun kemampuan coding pada level yang tak tertandingi di atas fondasi model umumnya, yang mendukung valuasi tinggi dan performa komersial yang mengesankan.

Li menyatakan bahwa large model sedang menginternalisasi ke evolusi sistem, bukan titik teknis yang terisolasi. Ia menyatakan bahwa optimasi model ke depan harus berkoordinasi secara mendalam dengan skenario aplikasi, membandingkannya dengan desain mesin yang harus selaras dengan seluruh kendaraan, di mana arah optimasi sama sekali berbeda untuk mobil balap F1 versus mobil untuk berbelanja bahan makanan. Ia menyatakan bahwa universalisme teknis dan universalisme komersial harus dipisahkan, dengan komersialisasi yang baik memerlukan optimasi model yang sangat spesifik skenario, sehingga setiap perusahaan dapat membangun moat-nya sendiri dengan menemukan arah yang tepat.

Galaxy General Melaporkan Embodied Intelligence pada Tahap GPT-1 hingga GPT-2

Wang He membagikan praktik Galaxy General dengan paradigma WAM (World Action Model). Sebelum paradigma WAM muncul, Galaxy General menggunakan 1 miliar frame data simulasi untuk memverifikasi kemungkinan penskalaan bagi kemampuan menggenggam. Perusahaan mengembangkan GRASP-VLA untuk mencapai grasping zero-shot terhadap objek arbitrer, tanpa model yang mengandalkan data teleoperasi nyata mencapai level performa setara hingga saat ini.

Wang menjelaskan bahwa munculnya paradigma WAM sepenuhnya memutus bottleneck data untuk embodied intelligence. Model VLA tradisional membutuhkan data dengan label aksi dan hanya bisa mengandalkan data robot. WAM berfokus pada Action sebagai inti, melakukan perencanaan aksi tingkat visual melalui prediksi masa depan tanpa memerlukan label aksi. Artinya, robot dapat langsung mempelajari logika perilaku dari video manusia, dengan data video manusia dalam jumlah besar menjadi materi pelatihan.

Wang menyatakan bahwa Galaxy General memublikasikan paper WAM pertama di dunia pada Maret 2025, dan pada April NVIDIA Embodied Intelligence Lab Director Jim Fan menyatakan bahwa endgame bagi robot adalah WAM. Wang menggambarkan pre-training embodied intelligence sebagai memasuki periode yang meledak-ledak tanpa batasan pada perolehan data. Ia menyatakan bahwa dalam dua tahun ke depan, embodied intelligence akan sepenuhnya memasuki momen GPT-3,5-nya, dengan tiket masuk berupa puluhan juta jam data berkualitas tinggi serta investasi modal miliaran.

AI Multimodal dan Embodied Intelligence Membuka Jalur Penskalaan Baru

Wang Zhongyuan mengungkapkan bahwa diskusi industri tahun lalu tentang kegagalan Scaling Law berawal dari kecemasan bahwa “data internet untuk pre-training sudah habis”. Dalam dua tahun terakhir, post-training, optimasi penalaran, serta evolusi diri rekursif Agent telah membawa gelombang baru peningkatan kapabilitas. Wang menyatakan ini bukan berarti peningkatan parameter pada model itu sendiri secara niscaya, melainkan seluruh sistem menjadi semakin kapabel, dengan AI bertransformasi dari alat obrolan menjadi alat eksekusi.

Sebagai lembaga riset, Zhiyuan sedang menjelajahi kurva pertumbuhan kecerdasan berikutnya. Dalam dua tahun terakhir, institut ini memverifikasi paradigma penskalaan di bidang multimodal, dengan seri Wujie Emu3 yang memakai kurang dari 1% data multimodal dan puluhan miliar parameter, namun sudah menunjukkan peningkatan performa yang jelas. Kini institut tersebut mulai mengarah ke world foundation models untuk dunia fisik, sambil mengeksplorasi jalur penskalaan untuk world models.

Li Dahai mengusulkan “knowledge density law” MiniMax: kecerdasan large model secara keseluruhan = knowledge density × jumlah parameter. Ia mengungkapkan bahwa saat menerapkan model edge untuk perusahaan otomotif tahun lalu, mereka hanya bisa mencapai 1 miliar parameter, tahun ini ditingkatkan menjadi 4 miliar, dan tahun depan kemungkinan akan mencapai puluhan miliar. Saat teknologi quantization membaik dan knowledge density meningkat, model yang lebih kuat setelah quantization menempati sumber daya yang sama seperti sebelumnya, sementara ekspansi skala model edge baru saja dimulai.

Li menyatakan bahwa banyak kesimpulan bertahap di industri memiliki usia simpan yang sangat singkat, karena perkembangan terus-menerus menggulingkan persepsi lama. Ia menyatakan bahwa bukan hanya model edge yang memiliki ruang besar untuk berkembang, tetapi pemrosesan long context pada large language model dan optimasi berdaya rendah masih memiliki potensi penskalaan yang jauh dari sepenuhnya dieksplorasi, dengan industri yang masih jauh dari tahap konvergensi.

Panel Mengidentifikasi Keunggulan Rantai Pasok dan Talenta Tiongkok

Wang Zhongyuan menyatakan bahwa pengembangan teknologi AI mengikuti jalur yang sama dengan autonomous driving, yang niscaya mengalami proses dari kekhawatiran dan ketakutan menjadi adaptasi dan penggunaan, lalu menuju pembentukan sistem tata kelola yang lengkap serta mekanisme alokasi tanggung jawab. Ketika teknologi dapat memberi peningkatan produktivitas 3-5 kali, popularisasinya tidak bisa dibendung, dan umat manusia yang telah mengalami beberapa putaran gelombang teknologi akan menemukan solusi tata kelola yang sesuai.

Li Dahai menyatakan bahwa masyarakat manusia pada dasarnya berkembang melalui “belajar dari kesalahan” — aturan keselamatan pesawat dan batas kecepatan jalan masing-masing memiliki pelajaran pahit di belakangnya. Teknologi AI akan meningkatkan efisiensi dalam menemukan celah dan memperbaiki masalah, sehingga sangat menurunkan biaya tersebut; industri pun sangat menekankan safety baselines sejak tahap startup dan perusahaan secara proaktif memikul tanggung jawab sosial. Li menyatakan bahwa pola belajar dari kesalahan mungkin sulit untuk dihindari sepenuhnya, karena risiko keselamatan sering muncul dari dimensi yang tidak terduga, menjadikan peningkatan aturan melalui pelajaran sebagai realitas yang harus dihadapi.

Terkait keunggulan diferensiasi Tiongkok dalam AI, Wang Zhongyuan menyatakan bahwa rantai pasok Tiongkok, keunggulan manufaktur, serta pasar domestik yang luas cukup untuk menginkubasi dan mengkatalisasi penerapan teknologi baru, dengan embodied intelligence dan world models kemungkinan menjadi area di mana Tiongkok mencapai kepemimpinan yang berbeda.

Wang He menyatakan dengan tegas bahwa embodied intelligence adalah peluang Tiongkok. Ia mengaku yakin bahwa “AlphaGo moment” dan “ChatGPT moment” embodied intelligence keduanya akan diwujudkan di Tiongkok, dengan menyatakan bahwa jika zero to one selesai di Tiongkok, one to hundred pasti matang di Tiongkok.

Li Dahai menambahkan faktor yang paling inti: Tiongkok memiliki jumlah talenta AI muda terpintar terbanyak di dunia, yang merupakan keunggulan paling fundamental. Dipadukan dengan keunggulan rantai pasok, ekosistem, dan skenario, Tiongkok pasti akan membuat kemajuan signifikan di bidang AI.

FAQ

Pada tahap apa Galaxy General mengatakan embodied intelligence telah sampai?

Galaxy General Founder dan CTO Wang He menyatakan pada Konferensi Beijing Zhiyuan bahwa embodied intelligence saat ini berada pada “tahap dari GPT-1 ke GPT-2”, dengan industri baru saja memasuki periode akselerasi. Wang menyatakan bahwa dalam dua tahun ke depan, embodied intelligence akan sepenuhnya memasuki momen GPT-3,5, dengan tiket masuk berupa puluhan juta jam data berkualitas tinggi dan investasi modal miliaran.

Bagaimana tanggapan para peserta panel terhadap kekhawatiran homogenisasi model AI?

Zhiyuan Research Institute Director Wang Zhongyuan menyatakan bahwa iterasi performa large model secara keseluruhan masih jauh dari mencapai bottleneck dan rute teknis belum konvergen, sehingga ia menganggap klaim homogenisasi masih terlalu dini. MiniMax CEO Li Dahai mengutip kesuksesan Anthropic dalam kemampuan coding sebagai bukti bahwa perusahaan dapat membangun diferensiasi melalui kekuatan vertikal. Galaxy General Wang He menggambarkan moat kompetitif embodied intelligence sebagai sistem lengkap yang mencakup pasokan data, iterasi perangkat keras, dan kapabilitas model, serta menyatakan bahwa tidak ada produk matang tipe seperti ini di seluruh dunia.

Keunggulan apa yang diidentifikasi panel untuk pengembangan AI Tiongkok?

Para peserta panel mengidentifikasi banyak keunggulan Tiongkok. Wang Zhongyuan menyebut rantai pasok Tiongkok, keunggulan manufaktur, dan pasar domestik yang luas sebagai cukup untuk mengkatalisasi penerapan teknologi baru. Li Dahai menyatakan bahwa Tiongkok memiliki jumlah talenta AI muda terpintar terbanyak di dunia sebagai keunggulan paling fundamental. Wang He menyatakan keyakinan bahwa momen-momen terobosan embodied intelligence yang sebanding dengan AlphaGo dan ChatGPT akan diwujudkan di Tiongkok, dengan menyatakan bahwa jika zero to one selesai di Tiongkok, one to hundred pasti matang di Tiongkok.

Lihat Sumber

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

4jam yang lalu

Model AI Yunzhisheng U2 Masuk Peringkat 8 Teratas Secara Global, Membuka Akses bagi Pengembang

5jam yang lalu

Marc Andreessen Membela Regulasi AI yang Ditargetkan saat AS Membatasi Akses ke Model Anthropic

9jam yang lalu

Model AI Tiongkok Mencapai 18,42 Triliun Panggilan Token Mingguan, Memimpin Secara Global untuk Pekan Ke-7 Berturut-turut