Pesan Gate News, 20 April — Model AI teratas unggul dalam memecahkan masalah kompleks seperti matematika Olimpiade, tetapi kesulitan pada pekerjaan rutin perusahaan, menurut David Meyer dari Databricks. Beberapa model mungkin memperbaiki nomor faktur yang salah alih-alih menandainya sebagai kesalahan, sementara alat pemrograman seperti Claude juga bisa berkinerja di bawah standar pada tugas rekayasa data.

Kesenjangan ini berasal dari perbedaan mendasar antara data perusahaan dan teks web publik yang digunakan untuk melatih model besar. Data perusahaan sering menampilkan label kolom yang tidak jelas, banyak kolom kosong, dan kode yang disimpan sebagai teks biasa. Dalam satu studi akademis, skor F1 model AI, yang menyeimbangkan precision dan recall, turun dari 0.94 pada data publik menjadi 0.07 pada data perusahaan untuk tugas rekayasa data. Selain itu, model besar cenderung mengandalkan pola yang sudah familiar dari pelatihan; beberapa kembali ke Structured Query Language (SQL) bahkan setelah menerima instruksi dan dokumentasi untuk bahasa kueri proprietari milik sebuah perusahaan.

Model sumber terbuka yang lebih kecil yang disetel dengan reinforcement learning dapat menangani pekerjaan tertentu dengan lebih efisien dengan biaya pelatihan yang jauh lebih rendah dibandingkan model umum skala besar. Databricks sedang membangun agen AI yang lebih kecil untuk alur kerja spesifik, seperti KARL, yang menggunakan reinforcement learning untuk penalaran multi-langkah dengan dokumen perusahaan. Industri bergeser dari mengandalkan model raksasa ke arsitektur hibrida, di mana model kecil yang efisien menangani volume rutin, lalu hanya mengeskalasi kasus yang tidak jelas atau kompleks ke sistem yang lebih besar dan lebih mahal.

Databricks baru-baru ini mengakuisisi Quotient AI untuk membantu perusahaan besar menjalankan agen AI dengan lebih andal. Persaingan di bisnis AI kini berpusat pada menjalankan seluruh siklus hidup AI, termasuk sistem umpan balik untuk melacak kesalahan dan terus meningkatkan model dari waktu ke waktu, sehingga alat evaluasi dan penyetelan semakin bernilai setelah penerapan.

Lihat Sumber

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

04-20 04:51

Gubernur Maryland Mengundang Microsoft dan Para Pemimpin AI untuk Membahas Risiko Keamanan Siber dari AI Canggih

04-20 01:46

Volume Panggilan Model AI Tiongkok Turun 23,8% dari Minggu ke Minggu, AS Melampaui untuk Pertama Kali dalam Dua Bulan

04-18 01:01

Laporan Bug yang Dihasilkan AI Membanjiri Tim Pemelihara cURL

04-17 23:01

DeepSeek Berupaya Mengumpulkan $300M dengan Valuasi $10B seperti OpenAI dan Valuasi Anthropic Memicu Perdebatan Pasar

04-17 09:21

OpenAI Memperbarui Codex Menjadi Agen AI yang Mengontrol Desktop, Mengotomatiskan Alur Kerja Pengembangan

Komentar