付款方式為

USD

支援 Visa、Mastercard、SEPA 等多種支付方式

靈活買賣幣，0手續費

加密貨幣付款卡全球付款無憂

基礎交易

自由交易加密貨幣

借幣交易，放大收益

閃兌與定投

大小額通兌、0 費率、無滑點

自動調倉無懼強平，自帶槓桿放大收益

提前交易，先發制人

進階交易

使用 Gate 錢包進行鏈上交易

鏈上掘金，智選新幣

交易機器人

智能策略，自動交易

跟隨專家實現收益增長

一份保證金，跨平台共用

數百種永續合約市場

一站交易全球傳統資產

歐式 T 型報價，豐富的到期日和行權價

實現最大化資金效率

從零開始掌握合約交易技巧

參與活動贏取獎勵

使用模擬資金無風險體驗真實交易

打新

參與活動賺糖果，贏超值空投獎勵

一鍵質押，賺取潛力新幣

持有 GT，免費領取海量空投

打新自由，直通全球股票發行市場

交易鏈上資產，享空投福利

合約交易得積分，空投獎勵待領取

理財產品

閒置代幣，隨時賺取收益

定期定額，讓理財變得更簡單

低買高賣，波動獲益

通過靈活質押資產獲取收益

抵押資產，即時借幣

一站式借貸入口

VIP 專屬理財

尊享理財訂製助力財富增值

私人財富管理

臻享訂製財富方案

頂尖量化，穩健護航

鏈上精選，質押賺幣

到期前不強平，安心持幣享槓桿收益

鑄造 GUSD，享國債 RWA 收益

分享動態發現價值

每日行情分析直播

隨時隨地與幣友即時交流

一站式獲取最新行業資訊

更多

推廣

參與活動，贏取豐厚獎勵

邀友入駐，共享高額收益

專屬返佣，輕鬆賺取高收益

擴大影響力，享海量空投

平台動態，實時更新

行業深度分析

超高費率折扣

提供一站式資產管理解決方案

提供企業級虛擬資產解決方案

OTC 銀行轉帳

提供多種法幣自營出入金渠道

經紀商專案

豐厚的 API 返佣機制

AI

您的對話式 AI 全能夥伴

在社交 App 中直接使用 Gate AI

Gate 藍龍蝦，開箱即用

Gate for AI Agent

AI 基礎設施，Gate MCP、Skills 與 CLI

Gate Skills Hub

從辦公到交易，一站式技能庫讓 AI 更好用

智選 40+ 大型模型，0% 額外費用

其他

常見問題解答與幫助指南

學習加密貨幣投資知識

與冠軍攜手同行

Gate 承諾 100%儲備金

守護您的資產安全

Agent 需要“油表”和“刹车”：一篇論文，扒光了 Agent 的“糊塗帳”

2026-05-03 01:01:40

null

想像一下這個場景：

你讓 AI Agent 幫你修一個程式碼 Bug。它打開專案，讀了 20 個檔案，改了改，跑了一下測試，沒過，又改，又跑，還是沒過……來回折騰了十幾輪，終於——還是沒修好。

你關掉電腦，鬆了口氣。然後收到了 API 帳單。

上面的數字可能讓你倒吸一口涼氣——AI Agent 自主修 Bug 在海外官方 API 下，單次未修復任務常燒掉百萬以上 Token，費用可達幾十至一百多美元。

2026 年 4 月，一篇由史丹佛、MIT、密歇根大學等聯合發布的研究論文，第一次系統性地打開了 AI Agent 在程式碼任務中的“消費黑箱”——錢到底花在哪了、花得值不值得、能不能提前預估，答案令人震驚。

發現一：Agent 寫程式的燒錢速度，是普通 AI 對話的 1000 倍

大家可能覺得，讓 AI 幫你寫程式和讓 AI 跟你聊程式碼，花的錢應該差不多吧？

論文給出對比顯示：

Agentic 編碼任務的 Token 消耗量，是普通程式碼問答和程式碼推理任務的約 1000 倍。

差了整整三個數量級。

為什麼會這樣？論文指出了一個事實——錢不是花在“寫程式”上，而是花在“讀程式碼”上。

這裡的“讀”不是指人類讀程式碼，而是 Agent 在工作過程中，需要不斷地把整個專案的上下文、歷史操作記錄、報錯資訊、檔案內容一股腦兒“喂”給模型。每多一輪對話，這個上下文就變得更長一輪；而模型是按 Token 數量計費的——你喂得越多，付得越多。

打個比方：這就像請了一個修理工，他每動一下扳手之前，都要你把整棟樓的圖紙從頭念一遍給他聽——念圖紙的钱，遠比拧螺絲的钱貴得多。

論文把這個現象總結為一句話：驅動 Agent 成本的，是輸入 Token 的指數級增長，而非輸出 Token。

發現二：同一個 Bug，跑兩次，花費能差一倍——而且越貴的 Bug 越不穩定

更讓人頭疼的是隨機性。

研究者讓同一個 Agent 在同一個任務上跑了 4 次，結果發現：

在不同任務之間，最貴的任務比最便宜的任務多燒約 700 萬個 Token（Figure 2a）

在同一模型、同一任務的多次運行中，最貴的一次大約是最便宜的一次的 2 倍（Figure 2b）

而如果跨模型對比同一個任務，最高消耗和最低消耗之間可以相差高達 30 倍

最後一個數字尤其值得關注：這意味著，選對模型和選錯模型之間的成本差距，不是“貴一點”，而是“貴出一個數量級”。

更扎心的是——花得多，不代表做得好。

論文發現了一個“倒 U 型”曲線：

成本水平準確率趨勢低成本準確率較低（可能投入不夠）中等成本準確率往往最高高成本準確率不升反降，進入"飽和區間"

為什麼會這樣？論文通過分析 Agent 的具體操作給出了答案——

高成本的運行中，Agent 大量時間花在了“重複勞動”上。

研究發現，在高成本運行中，約 50% 的檔案查看和檔案修改操作是重複的——也就是說，Agent 在反覆讀同一個檔案、反覆改同一行程式碼，像一個人在房間裡轉圈，越轉越暈，越暈越轉。

錢沒花在解決問題上，花在了“迷路”上。

發現三：模型之間“能效比”天差地別——GPT-5 最省，有的模型多燒 150 萬 Token

論文在業界標準的 SWE-bench Verified（500 個真實 GitHub Issue）上，測試了 8 個前沿大模型的 Agent 表現。換算成美元，Token 效率高的模型每個任務可以多花幾十塊的區別。放到企業級應用——一天跑幾百個任務——差距就是真金白銀。

更有意思的一個發現是：Token 效率是模型的“固有性格”，而非任務使然。

研究者把所有模型都成功解決的任務（230 個）和所有模型都失敗的任務（100 個）分別拿出來比較，發現模型的相對排名幾乎沒有變化。

這說明：有些模型天生就“話多”，跟任務難度關係不大。

還有一個令人深思的發現：模型缺乏“止損意識”。

在面對所有模型都無法解決的困難任務時，理想的 Agent 應該盡早放棄，而不是繼續燒錢。但現實是，模型普遍在失敗任務上消耗了更多的 Token——它們不會“認輸”，只會繼續探索、重試、重讀上下文，像一台沒有油表警示燈的汽車，一路開到抛錨。

發現四：人類覺得難的，Agent 不一定覺得貴——難度感知完全錯位

你可能會想：那至少我可以根據任務的難易程度來預估成本吧？

論文找來人類專家，對 500 個任務的難度進行評分，然後和 Agent 的實際 Token 消耗做對比——

結果：兩者之間只有弱相關。

用大白話說：人類覺得難得要死的任務，Agent 可能輕鬆搞定不怎麼花錢；人類覺得小菜一碟的任務，Agent 可能燒到懷疑人生。

這是因為人和 AI “看到”的難度根本不是一回事：

人類看的是：邏輯複雜度、演算法難度、業務理解門檻

Agent 看的是：專案有多大、要讀多少檔案、探索路徑有多長、會不會反覆修改同一個檔案

一個人類專家覺得“改一行就行”的 Bug，Agent 可能要先讀懂整個程式碼庫的結構才能定位到那一行——光是“讀”就要燒掉大量 Token。而一個人類覺得“邏輯很繞”的演算法問題，Agent 可能恰好知道標準解法，三下五除二就搞定了。

這就導致了一個尷尬的現實：開發者幾乎不可能憑直覺預估 Agent 的運行成本。

發現五：連模型自己都算不准自己要花多少錢

既然人算不准，那讓 AI 自己來預測呢？

研究者設計了一個精巧的實驗：讓 Agent 在真正開始修 Bug 之前，先“inspect”一下程式碼庫，然後預估自己需要消耗多少 Token——但不實際執行修復。

結果如何？

所有模型，全軍覆沒。

最好的成績是 Claude Sonnet-4.5 對輸出 Token 的預測相關性——0.39（滿分 1.0）。多數模型的預測相關性只有 0.05 到 0.34 之間，Gemini-3-Pro 最低，僅為 0.04——基本等於瞎猜。

更離譜的是：所有模型都系統性低估了自己的 Token 消耗。Figure 11 的散點圖中，幾乎所有數據點都落在“完美預測線”的下方——模型覺得自己“花不了那麼多”，實際上花了更多。而且這個低估偏差在不提供範例的情況下更加嚴重。

更諷刺的是——預測本身也要花錢。

Claude Sonnet-3.7 和 Sonnet-4 的預測成本甚至高達任務本身成本的 2 倍以上。也就是說，讓它們先“估個價”，比直接幹活還貴。

論文的結論直截了當：

現階段，前沿模型無法準確預測自身的 Token 用量。點下“運行 Agent”，就像開盲盒——帳單出來才知道花了多少。

這筆“糊塗帳”背後，藏著一個更大的行業問題

讀到這，你可能會問：這些發現對企業意味著什麼？

“按月訂閱”的定價模式，正在被 Agent 撕開裂縫

論文指出，像 ChatGPT Plus 這樣的訂閱制之所以可行，是因為普通對話的 Token 消耗相對可控、可預測。但 Agent 任務完全打破了這一假設——一個的任務可能因為 Agent 陷入循環而燒掉巨量 Token。

這意味著，純粹的訂閱制定價對 Agent 場景可能不可持續，按量計費（Pay-as-you-go）在相當長時間內仍是最現實的選項。但按量計費的問題在於——用量本身就不可預測。

Token 效率應該成為選模型的“第三指標”

傳統上，企業選模型看兩個維度：能力（能不能幹）和速度（幹得快不快）。這篇論文給出了第三個同等重要的維度：能效（花多少才能幹成）。

一個能力略遜但效率高 3 倍的模型，在規模化場景下可能比“最強但最費”的模型更有經濟價值。

Agent 需要“油表”和“刹車”

論文提到一個值得關注的未來方向——Budget-aware tool-use policies（預算感知的工具使用策略）。簡單說就是給 Agent 裝一個"油表"：當 Token 消耗接近預算時，強制它停止無效探索，而不是一路燒到底。

目前，幾乎所有主流 Agent 框架都缺乏這種機制。

Agent 的“燒錢問題”，不是 Bug，而是行業必經的陣痛

這篇論文揭示的並非某個模型的缺陷，而是整個 Agent 範式的結構性挑戰——當 AI 從“一問一答”進化到“自主規劃、多步執行、反覆調試”，Token 消耗的不可預測性幾乎是一種必然。

好消息是，這是第一次有人系統性地把這筆糊塗帳翻出來算。有了這份數據，開發者可以更明智地選擇模型、設定預算、設計止損機制；模型廠商也有了一個新的優化方向——不只是做得更強，還要做得更省。

畢竟，在 AI Agent 真正走入千行百業的生產環境之前，每一分錢花得明明白白，比每一行程式碼寫得漂漂亮亮，更重要。（本文首發鈦媒體APP，作者 | 硅谷Tech news，編輯 | 趙虹宇）

註：本文基於 2026 年 4 月 24 日發表於 arXiv 的預印本論文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*（Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei）撰寫。作者來自弗吉尼亞大學、史丹佛大學、MIT、密歇根大學等機構。該研究尚未經同行評審。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

請輸入回覆內容

暫無回覆