成本壓力傳導：亞馬遜調整 Anthropic 模型計費模式，明年起按 Token 計費

2026年6月30日 03:02

重點摘要

亞馬遜調整Anthropic模型服務定價，由按“計算小時”轉為按“Token數量”計費，標誌AI算力成本管理更趨精細化。此舉升級了成本核算方式，能更精準反映不同任務的實際算力消耗，克服傳統模式單一粗放的侷限。

站內 AI 整理稿

### 成本壓力傳導：亞馬遜調整 Anthropic 模型計費模式，明年起按 Token 計費

近日，亞馬遜宣布將調整其旗下 Anthropic 模型服務的計費方式，從 2025 年起由現行的「按計算小時」模式轉變為「按 Token 數量」計費。這一變革乍看只是計價單位的更替，實則反映了雲端 AI 服務在成本結構與資源調度上正經歷一場深層次的轉型。隨著大語言模型應用從探索期走向規模化部署，企業與服務商都愈發意識到「算力成本」不再是一個可以粗略估算的黑箱，而必須走向精準、透明、可追溯的管理。亞馬遜此次率先調整，正是對這一趨勢的直接回應，也象徵著 AI 雲端服務的商業模式正在加速成熟。

傳統的按「計算小時」計費，本質上是基於時間維度進行資源租賃，類似於傳統虛擬機的收費邏輯。但大語言模型的運行特性與傳統運算截然不同：同一個用戶在一個小時內可能發起數十次短暫的推理請求，也可能執行一次長時間的批次處理任務；不同提示詞（prompt）的長度、生成文本的多寡，所造成的運算開銷差異極大。這種「時間軸」上的僵化計量，容易造成兩種弊端：一是低負載時段用戶多付了閒置成本，二是高複雜度任務又無法充分反映實際消耗，導致服務商利潤受損。換言之，粗放的按小時收費既不公平，也不利於算力資源的最優配置。

相較之下，按 Token 計費則是一種與模型工作機制高度匹配的「按量計價」模式。在語言模型的運算流程中，每一個輸入與輸出的 Token 都對應著確定的矩陣運算與記憶體存取，Token 數量本質上就是計算量的直接度量。亞馬遜轉向 Token 計費，意味著用戶將根據每次請求的真實算力消耗付費：一次簡短的問答可能只需支付極少費用，而一次長文生成則會對應更高的成本。這種細粒度計費不僅讓帳單更貼近實際使用情況，也使開發者在設計應用時能夠更直觀地評估不同技術路線的成本效益，從而鼓勵更高效的提示詞設計與模型調用策略。

值得注意的是，這項調整背後還隱含著一條「成本壓力傳導」的邏輯鏈條。隨著模型規模持續增大、訓練與推理的電力與硬體成本居高不下，雲端服務商面臨著巨大的利潤壓力。如果繼續採用粗放的按小時計價，服務商很難將上游 GPU 短缺、電價波動等成本變化靈敏地傳遞給終端用戶，最終只能自行吸收或一次性大幅漲價，造成市場震盪。按 Token 計費則提供了一個彈性的緩衝層：當算力成本上升時，服務商可微調每 Token 的單價，而不必改變整體定價框架；用戶也能透過最佳化 Token 使用量來控制開支，形成雙向的適應機制。這種動態定價模式將使 AI 雲端服務的經濟模型更加穩健。

對於企業開發者與終端用戶而言，這一轉變既帶來機遇也帶來挑戰。好處是計費變得透明，每一筆支出的對應關係更清楚，有利於成本監控與預算編列；尤其對於高頻次、低延遲的對話式應用，按 Token 付費可能比按小時租用 GPU 便宜許多。然而，壞處是成本的可預測性下降——如果應用遭遇突發流量或提示詞設計不當，Token 消耗可能迅速失控，導致帳單暴漲。這將倒逼企業投入更多資源在 Token 使用量的監控、預警與最佳化上，也將催生新的第三方成本管理工具與服務。換句話說，計費模式改變本身正在創造一個新的生態需求。

從更宏觀的行業格局來看，亞馬遜此舉很可能引發連鎖反應。目前主流雲端服務商對大模型 API 的計費方式五花八門，有的按請求次數、有的按字元數、有的仍按執行時間。亞馬遜作為全球最大的雲端服務供應商，選擇與模型技術高度掛鉤的 Token 計費，無疑為行業樹立了一個標竿。其他競爭對手——無論是 Google Cloud 的 Vertex AI

原始來源：AIBase ↗

查看原始來源