智東西生成式AI

對話Kimi B端負責人黃震昕:把國產大模型搬上亞馬遜雲科技,未來與海外“御三家”掰手腕

2026年7月3日 08:12

重點摘要

月之暗面Kimi與亞馬遜雲科技展開四層合作,涵蓋基礎設施、平台服務、業務合作及垂直行業,藉此拓展全球市場。Kimi B端負責人黃震昕透露,公司提供業界最高人均算力,B端業務快速增長,並在Token效率、長程推理及Agent集群等方面取得技術突破,目標是與海外頂尖模型競爭。他預測,雖然算力成本上漲推升模型價格,但技術優化將持續提升性價比。

站內 AI 整理稿

在2026年亞馬遜雲科技中國峰會期間,月之暗面Kimi的B端負責人黃震昕分享了公司與亞馬遜雲科技的合作進展,並強調Kimi致力於成為全球化公司,讓全球用戶平等獲得AI賦能。他透露,月之暗面提供行業內最高的人均算力支持,C端與B端業務今年增長迅速,目標是探索智能上限,並在未來與海外“御三家”(指OpenAI、Google、Anthropic等頂尖模型廠商)直接競爭。這一合作基於飛輪模式:Kimi從亞馬遜雲科技採購全球雲基礎設施,同時借助其渠道服務全球企業,藉助亞馬遜雲科技的品牌與合規優勢,推動收入快速增長。 雙方合作覆蓋從基礎設施層到應用層的四個層面。在基礎設施層,Kimi藉助亞馬遜雲科技全球數據中心和網絡基礎設施,獲得穩定算力支持。在平臺服務層,Kimi多個模型已登陸Amazon SageMaker,降低開發者訓練與推理門檻,同時Amazon Bedrock接入K2.5等開源模型,未來將推進更多最新模型接入。在業務合作層,Kimi官方API登陸AWS Marketplace,直接觸達全球數百萬企業客戶,實現零門檻接入與按量付費,並重點傾斜TPM資源。在垂直行業層,Kimi與亞馬遜雲科技聯合打造金融、醫療、製造等行業解決方案,將大模型能力嵌入真實業務流程。 月之暗面的B端業務比重持續增加,面向企業客戶構建完整生產力賦能體系,包括模型層(如K2.7 Code、K2.6、K2.5基礎模型)、服務層(豐富API)及工具產品層(Kimi Agent集群、Kimi Code等)。黃震昕強調,Kimi將視覺理解、Coding和Agent整合在單一模型中,預訓練階段就融合視覺與文本數據,提升廣泛適用性。例如,Visual-to-Code功能可將視覺動效轉化為代碼,並與字節Trae合作推出Visual Debug功能,允許程序員通過錄屏標註修復bug,在“圖片+Coding”混合場景中展現明顯優勢。 技術創新方面,Kimi圍繞智能體三個核心維度進行規模化佈局。首先,Token效率大幅提升:2025年首次大規模應用Muon二階優化器,使10T數據發揮20T效用,效率翻倍,已被GLM、DeepSeek V4等模型採用。其次,長程推理突破:發佈Kimi Linear架構,將模型擴大10倍時的成本增長從指數級壓縮為線性,大幅降低長鏈路成本。最後,Agent集群能力強化:支持300個子Agent並行完成4000個協作步驟,推高多Agent系統協作上限。 在降本與提效方面,Kimi自研KVCache中心化解耦架構Mooncake,將Cache命中率提升至92.5%,使K2.7-code模型有效輸入價格降低74%。高速版K2.7-code-highspeed輸出速度達180tokens/s,短上下文場景可達260tokens/s,能快速輸出代碼。黃震昕建議,評估模型價格時需關注Cache命中率,而Kimi已與亞馬遜雲科技合作,共享底層推理優化技術,確保雙方在推理性能與成本控制上保持一致。這一系列工程優化,結合技術創新,持續降低用戶使用成本並提升運行速度。 針對大模型服務價格波動,黃震昕認為今年漲價主因是算力成本全球上漲,跟不上Token需求增長。他判斷,用戶願為高性能Token支付溢價,但模型廠商通過Cache優化與推理優化壓縮實際成本,形成“兩股力量同時做功”。Kimi定位做最高性能模型而非最便宜,但致力於提升終端用戶性價比。他強調,月之暗面團隊僅300多人,專注底層創新與效率優化,解決Scaling Law中的卡點,並通過技術手段維持服務穩定性。 黃震昕指出,基礎模型廠商不能只關注現有基準,必須向更底層前沿技術看齊。202

Related

相關文章

Claude Fable 5,名存實亡

assistant: 根據提供的內容,這似乎是一則關於AI模型服務的報導或評論。摘要如下:Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

剛剛
雷峰網生成式AI

算力之外的博弈:ICML 2026 透露了哪些學術硬通貨?

告別盲目刷榜,28頁 PPT 帶你摸透 ICML 新風向。 作者丨陳淑瑜 編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇,幾近翻倍。然而,最終的接收率卻牢牢釘在 26.56%,與去年幾乎持平。這一數據傳遞出一個明確的信號:並非競爭變得盲目激烈,而是學術評審標準經歷了一次深刻的“重新校準”。

6 小時前
智東西生成式AI

獨家:阿里全面禁用Claude

智東西 作者 | 李水青 編輯 | 雲鵬 智東西7月3日獨家獲悉,今日,阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品,包括Sonnet、Opus、Fable等多個系列模型,以及Claude Code在內的Agent產品。禁令於7月10日正式生效。

7 小時前
智東西生成式AI

超190億!AI視頻最大單筆融資誕生,阿里騰訊百度都投了

快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資,阿里、騰訊、百度均參與投資,快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次,2025年營收約11億元,年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵,並計劃在未來12個月內推動可靈AI赴港上市。

11 小時前
MarkTechPost AI生成式AI

RAG-Anything 教學:在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道

在本教學中,我們將建構一套 RAG-Anything 工作流程,並藉此探索多模態檢索如何應用於文字、表格、方程式與圖像。首先,我們會準備 Colab 環境、安裝所需套件,並在執行階段安全輸入 OpenAI API 金鑰,確保筆記本既實用又可安全執行。接著,我們會建立一份合成多模態報告、產生圖表與 PDF,將內容轉換為 RAG-Anything 的 direct content_list 格式,並插入檢索系統。隨著教學進行,我們將設定基於 OpenAI 的乾淨對話、視覺與嵌入函數,初始化 RAG-Anything,並測試不同檢索模式(如 naive、local、global 與 hybrid)。安裝 RAG-Anything 相依套件:複製程式碼(使用其他瀏覽器)import os i

15 小時前
雷峰網生成式AI

Claude Sonnet 5 上線一日差評刷屏:打不過千問和 Minimax,性價比全面翻車

根據 雷峰網 的原始內容,這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏:打不過千問和 Minimax,性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。 根據 雷峰網 的原始內容,這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏:打不過千問和 Minimax,性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。

1 天前