🔥 WCTC S8 全球交易賽正式開賽!
8,000,000 USDT 超級獎池解鎖開啟
🏆 團隊賽:上半場正式開啟,預報名階段 5,500+ 戰隊現已集結
交易量收益額雙重比拼,解鎖上半場 1,800,000 USDT 獎池
🏆 個人賽:現貨、合約、TradFi、ETF、閃兌、跟單齊上陣
全場交易量比拼,瓜分 2,000,000 USDT 獎池
🏆 王者 PK 賽:零門檻參與,實時匹配享受戰鬥快感
收益率即時 PK,瓜分 1,600,000 USDT 獎池
活動時間:2026 年 4 月 23 日 16:00:00 - 2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即參與:https://www.gate.com/competition/wctc-s8
#WCTCS8
Agent 需要“油表”和“刹车”:一篇論文,扒光了 Agent 的“糊塗帳”
null
想像一下這個場景:
你讓 AI Agent 幫你修一個程式碼 Bug。它打開專案,讀了 20 個檔案,改了改,跑了一下測試,沒過,又改,又跑,還是沒過……來回折騰了十幾輪,終於——還是沒修好。
你關掉電腦,鬆了口氣。然後收到了 API 帳單。
上面的數字可能讓你倒吸一口涼氣——AI Agent 自主修 Bug 在海外官方 API 下,單次未修復任務常燒掉百萬以上 Token,費用可達幾十至一百多美元。
2026 年 4 月,一篇由史丹佛、MIT、密歇根大學等聯合發布的研究論文,第一次系統性地打開了 AI Agent 在程式碼任務中的“消費黑箱”——錢到底花在哪了、花得值不值得、能不能提前預估,答案令人震驚。
發現一:Agent 寫程式的燒錢速度,是普通 AI 對話的 1000 倍
大家可能覺得,讓 AI 幫你寫程式和讓 AI 跟你聊程式碼,花的錢應該差不多吧?
論文給出對比顯示:
Agentic 編碼任務的 Token 消耗量,是普通程式碼問答和程式碼推理任務的 約 1000 倍。
差了整整三個數量級。
為什麼會這樣?論文指出了一個事實——錢不是花在“寫程式”上,而是花在“讀程式碼”上。
這裡的“讀”不是指人類讀程式碼,而是 Agent 在工作過程中,需要不斷地把整個專案的上下文、歷史操作記錄、報錯資訊、檔案內容一股腦兒“喂”給模型。每多一輪對話,這個上下文就變得更長一輪;而模型是按 Token 數量計費的——你喂得越多,付得越多。
打個比方:這就像請了一個修理工,他每動一下扳手之前,都要你把整棟樓的圖紙從頭念一遍給他聽——念圖紙的钱,遠比拧螺絲的钱貴得多。
論文把這個現象總結為一句話:驅動 Agent 成本的,是輸入 Token 的指數級增長,而非輸出 Token。
發現二:同一個 Bug,跑兩次,花費能差一倍——而且越貴的 Bug 越不穩定
更讓人頭疼的是隨機性。
研究者讓同一個 Agent 在同一個任務上跑了 4 次,結果發現:
在不同任務之間,最貴的任務比最便宜的任務多燒約 700 萬個 Token(Figure 2a)
在同一模型、同一任務的多次運行中,最貴的一次大約是最便宜的一次的 2 倍(Figure 2b)
而如果跨模型對比同一個任務,最高消耗和最低消耗之間可以相差高達 30 倍
最後一個數字尤其值得關注:這意味著,選對模型和選錯模型之間的成本差距,不是“貴一點”,而是“貴出一個數量級”。
更扎心的是——花得多,不代表做得好。
論文發現了一個“倒 U 型”曲線:
成本水平準確率趨勢低成本準確率較低(可能投入不夠)中等成本準確率往往最高高成本準確率不升反降,進入"飽和區間"
為什麼會這樣?論文通過分析 Agent 的具體操作給出了答案——
高成本的運行中,Agent 大量時間花在了“重複勞動”上。
研究發現,在高成本運行中,約 50% 的檔案查看和檔案修改操作是重複的——也就是說,Agent 在反覆讀同一個檔案、反覆改同一行程式碼,像一個人在房間裡轉圈,越轉越暈,越暈越轉。
錢沒花在解決問題上,花在了“迷路”上。
發現三:模型之間“能效比”天差地別——GPT-5 最省,有的模型多燒 150 萬 Token
論文在業界標準的 SWE-bench Verified(500 個真實 GitHub Issue)上,測試了 8 個前沿大模型的 Agent 表現。換算成美元,Token 效率高的模型每個任務可以多花幾十塊的區別。放到企業級應用——一天跑幾百個任務——差距就是真金白銀。
更有意思的一個發現是:Token 效率是模型的“固有性格”,而非任務使然。
研究者把所有模型都成功解決的任務(230 個)和所有模型都失敗的任務(100 個)分別拿出來比較,發現模型的相對排名幾乎沒有變化。
這說明:有些模型天生就“話多”,跟任務難度關係不大。
還有一個令人深思的發現:模型缺乏“止損意識”。
在面對所有模型都無法解決的困難任務時,理想的 Agent 應該盡早放棄,而不是繼續燒錢。但現實是,模型普遍在失敗任務上消耗了更多的 Token——它們不會“認輸”,只會繼續探索、重試、重讀上下文,像一台沒有油表警示燈的汽車,一路開到抛錨。
發現四:人類覺得難的,Agent 不一定覺得貴——難度感知完全錯位
你可能會想:那至少我可以根據任務的難易程度來預估成本吧?
論文找來人類專家,對 500 個任務的難度進行評分,然後和 Agent 的實際 Token 消耗做對比——
結果:兩者之間只有弱相關。
用大白話說:人類覺得難得要死的任務,Agent 可能輕鬆搞定不怎麼花錢;人類覺得小菜一碟的任務,Agent 可能燒到懷疑人生。
這是因為人和 AI “看到”的難度根本不是一回事:
人類看的是:邏輯複雜度、演算法難度、業務理解門檻
Agent 看的是:專案有多大、要讀多少檔案、探索路徑有多長、會不會反覆修改同一個檔案
一個人類專家覺得“改一行就行”的 Bug,Agent 可能要先讀懂整個程式碼庫的結構才能定位到那一行——光是“讀”就要燒掉大量 Token。而一個人類覺得“邏輯很繞”的演算法問題,Agent 可能恰好知道標準解法,三下五除二就搞定了。
這就導致了一個尷尬的現實:開發者幾乎不可能憑直覺預估 Agent 的運行成本。
發現五:連模型自己都算不准自己要花多少錢
既然人算不准,那讓 AI 自己來預測呢?
研究者設計了一個精巧的實驗:讓 Agent 在真正開始修 Bug 之前,先“inspect”一下程式碼庫,然後預估自己需要消耗多少 Token——但不實際執行修復。
結果如何?
所有模型,全軍覆沒。
最好的成績是 Claude Sonnet-4.5 對輸出 Token 的預測相關性——0.39(滿分 1.0)。多數模型的預測相關性只有 0.05 到 0.34 之間,Gemini-3-Pro 最低,僅為 0.04——基本等於瞎猜。
更離譜的是:所有模型都系統性低估了自己的 Token 消耗。Figure 11 的散點圖中,幾乎所有數據點都落在“完美預測線”的下方——模型覺得自己“花不了那麼多”,實際上花了更多。而且這個低估偏差在不提供範例的情況下更加嚴重。
更諷刺的是——預測本身也要花錢。
Claude Sonnet-3.7 和 Sonnet-4 的預測成本甚至高達任務本身成本的 2 倍以上。也就是說,讓它們先“估個價”,比直接幹活還貴。
論文的結論直截了當:
現階段,前沿模型無法準確預測自身的 Token 用量。點下“運行 Agent”,就像開盲盒——帳單出來才知道花了多少。
這筆“糊塗帳”背後,藏著一個更大的行業問題
讀到這,你可能會問:這些發現對企業意味著什麼?
論文指出,像 ChatGPT Plus 這樣的訂閱制之所以可行,是因為普通對話的 Token 消耗相對可控、可預測。但 Agent 任務完全打破了這一假設——一個的任務可能因為 Agent 陷入循環而燒掉巨量 Token。
這意味著,純粹的訂閱制定價對 Agent 場景可能不可持續,按量計費(Pay-as-you-go)在相當長時間內仍是最現實的選項。但按量計費的問題在於——用量本身就不可預測。
傳統上,企業選模型看兩個維度:能力(能不能幹)和速度(幹得快不快)。這篇論文給出了第三個同等重要的維度:能效(花多少才能幹成)。
一個能力略遜但效率高 3 倍的模型,在規模化場景下可能比“最強但最費”的模型更有經濟價值。
論文提到一個值得關注的未來方向——Budget-aware tool-use policies(預算感知的工具使用策略)。簡單說就是給 Agent 裝一個"油表":當 Token 消耗接近預算時,強制它停止無效探索,而不是一路燒到底。
目前,幾乎所有主流 Agent 框架都缺乏這種機制。
Agent 的“燒錢問題”,不是 Bug,而是行業必經的陣痛
這篇論文揭示的並非某個模型的缺陷,而是整個 Agent 範式的結構性挑戰——當 AI 從“一問一答”進化到“自主規劃、多步執行、反覆調試”,Token 消耗的不可預測性幾乎是一種必然。
好消息是,這是第一次有人系統性地把這筆糊塗帳翻出來算。有了這份數據,開發者可以更明智地選擇模型、設定預算、設計止損機制;模型廠商也有了一個新的優化方向——不只是做得更強,還要做得更省。
畢竟,在 AI Agent 真正走入千行百業的生產環境之前,每一分錢花得明明白白,比每一行程式碼寫得漂漂亮亮,更重要。(本文首發鈦媒體APP,作者 | 硅谷Tech news,編輯 | 趙虹宇)
註:本文基於 2026 年 4 月 24 日發表於 arXiv 的預印本論文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*(Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei)撰寫。作者來自弗吉尼亞大學、史丹佛大學、MIT、密歇根大學等機構。該研究尚未經同行評審。