Databricks称:顶级AI模型在日常企业任务中落后 更小的专业化模型表现更好

Gate News消息,4月20日——根据Databricks的David Meyer所述,顶级AI模型擅长解决奥林匹克数学等复杂问题,但在处理日常企业工作时却会遇到困难。某些模型可能会改正错误的发票号码,而不是将其标记为错误;同时,像Claude这样的编码工具在数据工程任务上也可能表现不佳。

这种差距源于企业数据与用于训练大模型的公开网页文本之间存在根本性差异。企业数据往往包含含糊的字段标签、大量空白字段,以及以纯文本形式存储的代码。在一项学术研究中,用于数据工程任务的AI模型的F1分数(在精确率与召回率之间取得平衡)从公共数据上的0.94降至企业数据上的0.07。此外,大模型通常会默认套用训练中熟悉的模式;即便在收到针对某家公司专有查询语言的指令和文档之后,有些模型仍然默认使用结构化查询语言 (SQL)。

经过强化学习微调的小型开源模型可以以更高效率、显著更低的训练成本来处理特定工作,而大型通用模型则难以做到这一点。Databricks正在为特定工作流构建更小的AI代理,例如KARL,它使用强化学习来借助公司文档进行多步骤推理。行业正从依赖超大型模型转向混合架构:由小型高效模型负责处理日常的海量任务,然后仅在遇到不明确或复杂的情况时才升级到更大、更昂贵的系统。

Databricks最近收购了Quotient AI,以帮助大型企业更可靠地运行AI代理。AI业务中的竞争如今聚焦于运行完整的AI生命周期,包括用于追踪错误的反馈系统,并随着时间持续改进模型;因此,在部署之后,评估与调优工具的价值也变得愈发重要。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات