對話Kimi B端負責人黃震昕：把國產大模型搬上亞馬遜雲科技，未來與海外“御三家”掰手腕

2026年7月3日 08:12

重點摘要

月之暗面Kimi與亞馬遜雲科技展開四層合作，涵蓋基礎設施、平台服務、業務合作及垂直行業，藉此拓展全球市場。Kimi B端負責人黃震昕透露，公司提供業界最高人均算力，B端業務快速增長，並在Token效率、長程推理及Agent集群等方面取得技術突破，目標是與海外頂尖模型競爭。他預測，雖然算力成本上漲推升模型價格，但技術優化將持續提升性價比。

站內 AI 整理稿

在2026年亞馬遜雲科技中國峰會期間，月之暗面Kimi的B端負責人黃震昕分享了公司與亞馬遜雲科技的合作進展，並強調Kimi致力於成為全球化公司，讓全球用戶平等獲得AI賦能。他透露，月之暗面提供行業內最高的人均算力支持，C端與B端業務今年增長迅速，目標是探索智能上限，並在未來與海外“御三家”（指OpenAI、Google、Anthropic等頂尖模型廠商）直接競爭。這一合作基於飛輪模式：Kimi從亞馬遜雲科技採購全球雲基礎設施，同時借助其渠道服務全球企業，藉助亞馬遜雲科技的品牌與合規優勢，推動收入快速增長。雙方合作覆蓋從基礎設施層到應用層的四個層面。在基礎設施層，Kimi藉助亞馬遜雲科技全球數據中心和網絡基礎設施，獲得穩定算力支持。在平臺服務層，Kimi多個模型已登陸Amazon SageMaker，降低開發者訓練與推理門檻，同時Amazon Bedrock接入K2.5等開源模型，未來將推進更多最新模型接入。在業務合作層，Kimi官方API登陸AWS Marketplace，直接觸達全球數百萬企業客戶，實現零門檻接入與按量付費，並重點傾斜TPM資源。在垂直行業層，Kimi與亞馬遜雲科技聯合打造金融、醫療、製造等行業解決方案，將大模型能力嵌入真實業務流程。月之暗面的B端業務比重持續增加，面向企業客戶構建完整生產力賦能體系，包括模型層（如K2.7 Code、K2.6、K2.5基礎模型）、服務層（豐富API）及工具產品層（Kimi Agent集群、Kimi Code等）。黃震昕強調，Kimi將視覺理解、Coding和Agent整合在單一模型中，預訓練階段就融合視覺與文本數據，提升廣泛適用性。例如，Visual-to-Code功能可將視覺動效轉化為代碼，並與字節Trae合作推出Visual Debug功能，允許程序員通過錄屏標註修復bug，在“圖片+Coding”混合場景中展現明顯優勢。技術創新方面，Kimi圍繞智能體三個核心維度進行規模化佈局。首先，Token效率大幅提升：2025年首次大規模應用Muon二階優化器，使10T數據發揮20T效用，效率翻倍，已被GLM、DeepSeek V4等模型採用。其次，長程推理突破：發佈Kimi Linear架構，將模型擴大10倍時的成本增長從指數級壓縮為線性，大幅降低長鏈路成本。最後，Agent集群能力強化：支持300個子Agent並行完成4000個協作步驟，推高多Agent系統協作上限。在降本與提效方面，Kimi自研KVCache中心化解耦架構Mooncake，將Cache命中率提升至92.5%，使K2.7-code模型有效輸入價格降低74%。高速版K2.7-code-highspeed輸出速度達180tokens/s，短上下文場景可達260tokens/s，能快速輸出代碼。黃震昕建議，評估模型價格時需關注Cache命中率，而Kimi已與亞馬遜雲科技合作，共享底層推理優化技術，確保雙方在推理性能與成本控制上保持一致。這一系列工程優化，結合技術創新，持續降低用戶使用成本並提升運行速度。針對大模型服務價格波動，黃震昕認為今年漲價主因是算力成本全球上漲，跟不上Token需求增長。他判斷，用戶願為高性能Token支付溢價，但模型廠商通過Cache優化與推理優化壓縮實際成本，形成“兩股力量同時做功”。Kimi定位做最高性能模型而非最便宜，但致力於提升終端用戶性價比。他強調，月之暗面團隊僅300多人，專注底層創新與效率優化，解決Scaling Law中的卡點，並通過技術手段維持服務穩定性。黃震昕指出，基礎模型廠商不能只關注現有基準，必須向更底層前沿技術看齊。202

原始來源：智東西 ↗

查看原始來源

36氪生成式AI

Claude Fable 5，名存實亡

assistant: 根據提供的內容，這似乎是一則關於AI模型服務的報導或評論。摘要如下：Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

剛剛閱讀分析

雷峰網生成式AI

算力之外的博弈：ICML 2026 透露了哪些學術硬通貨？

告別盲目刷榜，28頁 PPT 帶你摸透 ICML 新風向。作者丨陳淑瑜編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇，幾近翻倍。然而，最終的接收率卻牢牢釘在 26.56%，與去年幾乎持平。這一數據傳遞出一個明確的信號：並非競爭變得盲目激烈，而是學術評審標準經歷了一次深刻的“重新校準”。

6 小時前閱讀分析

智東西生成式AI

獨家：阿里全面禁用Claude

智東西作者 | 李水青編輯 | 雲鵬智東西7月3日獨家獲悉，今日，阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品，包括Sonnet、Opus、Fable等多個系列模型，以及Claude Code在內的Agent產品。禁令於7月10日正式生效。

7 小時前閱讀分析

智東西生成式AI

超190億！AI視頻最大單筆融資誕生，阿里騰訊百度都投了

快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資，阿里、騰訊、百度均參與投資，快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次，2025年營收約11億元，年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵，並計劃在未來12個月內推動可靈AI赴港上市。

11 小時前閱讀分析

MarkTechPost AI生成式AI

RAG-Anything 教學：在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道

在本教學中，我們將建構一套 RAG-Anything 工作流程，並藉此探索多模態檢索如何應用於文字、表格、方程式與圖像。首先，我們會準備 Colab 環境、安裝所需套件，並在執行階段安全輸入 OpenAI API 金鑰，確保筆記本既實用又可安全執行。接著，我們會建立一份合成多模態報告、產生圖表與 PDF，將內容轉換為 RAG-Anything 的 direct content_list 格式，並插入檢索系統。隨著教學進行，我們將設定基於 OpenAI 的乾淨對話、視覺與嵌入函數，初始化 RAG-Anything，並測試不同檢索模式（如 naive、local、global 與 hybrid）。安裝 RAG-Anything 相依套件：複製程式碼（使用其他瀏覽器）import os i

15 小時前閱讀分析

雷峰網生成式AI

Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車

根據雷峰網的原始內容，這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。根據雷峰網的原始內容，這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。

1 天前閱讀分析

相關文章