Pesan Gate News, 20 April — Model AI teratas unggul dalam memecahkan masalah kompleks seperti matematika Olimpiade, tetapi kesulitan pada pekerjaan rutin perusahaan, menurut David Meyer dari Databricks. Beberapa model mungkin memperbaiki nomor faktur yang salah alih-alih menandainya sebagai kesalahan, sementara alat pemrograman seperti Claude juga bisa berkinerja di bawah standar pada tugas rekayasa data.
Kesenjangan ini berasal dari perbedaan mendasar antara data perusahaan dan teks web publik yang digunakan untuk melatih model besar. Data perusahaan sering menampilkan label kolom yang tidak jelas, banyak kolom kosong, dan kode yang disimpan sebagai teks biasa. Dalam satu studi akademis, skor F1 model AI, yang menyeimbangkan precision dan recall, turun dari 0.94 pada data publik menjadi 0.07 pada data perusahaan untuk tugas rekayasa data. Selain itu, model besar cenderung mengandalkan pola yang sudah familiar dari pelatihan; beberapa kembali ke Structured Query Language (SQL) bahkan setelah menerima instruksi dan dokumentasi untuk bahasa kueri proprietari milik sebuah perusahaan.
Model sumber terbuka yang lebih kecil yang disetel dengan reinforcement learning dapat menangani pekerjaan tertentu dengan lebih efisien dengan biaya pelatihan yang jauh lebih rendah dibandingkan model umum skala besar. Databricks sedang membangun agen AI yang lebih kecil untuk alur kerja spesifik, seperti KARL, yang menggunakan reinforcement learning untuk penalaran multi-langkah dengan dokumen perusahaan. Industri bergeser dari mengandalkan model raksasa ke arsitektur hibrida, di mana model kecil yang efisien menangani volume rutin, lalu hanya mengeskalasi kasus yang tidak jelas atau kompleks ke sistem yang lebih besar dan lebih mahal.
Databricks baru-baru ini mengakuisisi Quotient AI untuk membantu perusahaan besar menjalankan agen AI dengan lebih andal. Persaingan di bisnis AI kini berpusat pada menjalankan seluruh siklus hidup AI, termasuk sistem umpan balik untuk melacak kesalahan dan terus meningkatkan model dari waktu ke waktu, sehingga alat evaluasi dan penyetelan semakin bernilai setelah penerapan.