對話清程極智核心團隊：不是所有Token都是好Token，要做大模型API“大眾點評”

2026年5月26日 08:40

重點摘要

站內 AI 整理稿

智東西作者 | 陳駿達編輯 | 李水青智東西5月26日報道，今天，北京AI Infra創企清程極智舉辦了一場小範圍媒體溝通會，系統性地梳理了其成立以來的技術脈絡與產品版圖。清程極智成立於2023年底，核心團隊來自清華大學計算機系高性能所，在高性能計算等領域有豐富經驗。截至2026年3月，清程已完成3輪融資，投資方包括北京市人工智能產業基金、聯想、中科創星等知名產業基金。目前，清程極智已經推出了智能計算軟件棧八卦爐（Bagualu）、大模型推理引擎赤兔（Chitu）、大模型服務評測與API調用平臺AI Ping等多款產品，覆蓋AI訓練、推理與應用服務的完整體系。清程極智重點展示了AI Ping在Token服務環節的能力，包括通過7×24小時持續評測、異地分佈式測試以及智能路由，對不同Token服務商的延遲、吞吐和穩定性進行動態觀測與調度。在推理層面，清程極智分享了赤兔推理引擎的技術路徑，包括底層自研架構、國產芯片適配，到支持FP8/FP4等量化技術的實現思路，以及其在昇騰、沐曦、海光、摩爾線程等國產算力生態中的實踐進展。清程極智核心團隊還向智東西等媒體分享了不少行業一線觀察，話題涵蓋Token服務成本、國產算力適配和模型技術路線等。清程極智首席科學家翟季冬提出了Token有好壞之分的觀點，即便是同一個模型、同樣數量的Token，不同服務商在首Token延遲、吞吐量、支持的上下文長度這些指標上，表現可能相差四五倍。清程極智聯合創始人、產品副總裁師天麾則進一步揭示了Token服務中的亂象，比如有些廠商Token單價看似不高，但緩存命中率低，反而拉高總體使用成本。一、Token經濟爆火，如何少花“冤枉錢” 2026年，Token經濟成為新的熱詞。清程極智首席科學家翟季冬拋出了一組數據：從全球範圍看，Token每日調用量從2024年初的約0.5萬億，攀升至今年3月的300至600萬億，增長近300倍；而中國的增速更為驚人，同期從0.1萬億增長至140萬億，增幅高達1400倍。是什麼在驅動這種增長？翟季冬說道：“現在Top 10的AI應用中，Agent能佔到80%以上。Agent和單輪對話不一樣，它需要多步執行，每一步都可能調用大模型，Token消耗量是普通對話的好幾倍。另外像AI編程這類工具，Token調用量也非常大，未來可能真的會取代相當一部分普通程序員的日常工作。” 中國具備獨特的Token經濟發展土壤。翟季冬稱，在供給側，政府在大力建智算中心、數算中心、超算中心，算力基礎設施在持續增長。模型層面，DeepSeek、GLM、Kimi等優秀模型在不斷開源，雲廠商部署很方便，連電信、移動這樣的運營商都在朝著Token服務方向走。需求側，中國的企業級用戶、開發者、科研人員、普通消費者，都對Token有著真實的需求。然而，市場爆發並不等於用戶獲得了良好體驗。如今，業界常常將Token比喻為“水電煤”，但翟季冬認為，Token與電力還有些細微的區別：當我們使用電力的時候，並不關心是風電、水電、火電，但Token本身，是有好有壞的。國內目前已經湧現出數十家Token供應商，但服務質量參差不齊，流通環節問題凸顯。用戶面對眾多模型和供應商，往往難以判斷Token的好壞與差異，選擇變得異常困難。清程極智團隊在日常業務中，接觸了大量“花冤枉錢”的案例。清程極智聯合創始人、產品副總裁師天麾說道：“買Token裡頭有很多的坑。” 第一個坑是不同服務商模型效果不一致。以DeepSeek模型為例，即便是同一個版本、同樣的機器、同樣的價格，不同服務商提供的模型效果也是不一樣的。第二個坑是不同服務商Token服務的實際成本不一致。有些情況下，就算標價相同、生成Token數相同，但不同服務商最終成本可能差好幾倍。這與緩存命中率有關。有的服務商緩存機制做得好，實際重複的請求不用重新計算，成本就低；有的服務商技術不行，每次都要重新跑，用戶花同樣的錢，買到的有效計算可能少很多。第三個坑是服務質量。迅速興起的Token廠商服務質量參差不齊，有的順暢，有的卡頓，甚至會出現服務變笨的情況。清程極智觀察到，目前“慢響應”的問題愈發突出，拿到請求後Token服務廠商原本應該3-5秒返回結果，但實際情況是，30秒、50秒甚至300秒都可能出現。從用戶實際體驗的角度來說，這種相應速度已經基本不可用，然而在廠商的服務質量保證中，只要返回了結果就算可用。翟季冬說道：“不同服務商在首Token延遲、吞吐量、支持的上下文長度這些指標上，表現可能相差四五倍。” 二、給大模型API做個“大眾點評”，7×24小時持續評測、智能調度模型今年一月，清程極智推出了AI Ping，就是為了解決上述問題。開發者將AI Ping形象地稱為“大模型API服務的大眾點評”。 AI Ping面向開發者的兩大核心需求提供支持：一是通過7×24小時的持續評測，呈現全面、客觀、真實的大模型服務性能指標，提供客觀、可驗證的性能榜單；二是藉助統一API接口、智能路由調度等功能，幫助需通過雲端調用大模型的開發者縮短決策週期、提升開發效率、降低接入成本。師天麾詳細介紹了AI Ping背後的關鍵技術。在測評方面，AI Ping主打的是從真實用戶的視角出發，做端到端的匿名評測。為確保公平性，他們會使用同樣的模型、同樣的輸入、在同一個時間段進行測試，並通過動態輸入機制改變評測內容，避免服務商針對評測進行“作弊”。同時，這一評測不是一次性的，而是24小時不間斷的進行，還會同時在北京、深圳、上海、成都等地進行分佈式的異地評測。師天麾稱，他們將部分評測結果與國內雲廠商的性能監測進行過交叉驗證，誤差基本控制在1%以內。AI Ping目前可以將Token服務的成本降低超37%，吞吐提升超90%，延遲降低超20%，可用率達到99.99%以上，對標服務質量最高的雲大廠。這些評測成為AI Ping提供智能路由服務的基礎。清程極智觀察到，同一家服務商的延遲、吞吐在一天內大幅度波動是十分正常的現象，對於用戶而言，如果選擇單一的服務商，資深的服務穩定性就會受到影響。 AI Ping的智能路由就像是一套導航系統，針對模型調用過程中的卡頓、成本失控等問題，智能調用最優鏈路，實時規劃高效調用路徑。同時，有些模型適合處理快速問答、有些模型適合複雜推理，AI Ping智能路由還可以實現不同模型的搭配。用戶還可在AI Ping上根據自己的需求選擇模型策略，比如默認模式、成本優先、性能優先等等。師天麾認為，AI Ping提供的服務隊中小企業而言尤其具有價值。對大廠而言，採購幾十個服務商提供的Token服務，然後進行評測並不是件難事，但中小企業因為成本、技術等原因很難做到這點。三、自研國產大模型推理引擎，不簡單挪用現成技術清程極智的另一大關鍵產品，是其生產級大模型推理引擎“赤兔”。清程極智聯合創始人唐適之詳細介紹了推理引擎的技術原理和赤兔的技術特點。推理引擎是運行在AI算力上的計算機程序，它接收用戶輸入，依據大模型定義進行計算併產生輸出，其輸入輸出以Token為單位進行計量。之所以需要專門開發推理引擎，是因為開源模型本身只是數學表示，要實現接收輸入併產生回答的完整過程，就必須設計相應的推理引擎程序。一個高效的推理引擎需要滿足多方面的要求：其精度要能如實反映模型的回答能力；吞吐量要大，每秒鐘處理的請求和Token數量要足夠多；延遲要低，每個請求的處理時間要儘可能短；同時還要佔用盡可能少的硬件資源，並且運行穩定，避免因頻繁報錯導致服務中斷。赤兔推理引擎正是為應對這些挑戰而自主研發的。赤兔由清程極智聯合清華大學團隊推出並開源，同時也提供商用版本。開源版服務國產算力生態並持續迭代，企業版則服務企業級高端需求。赤兔推理引擎從第一行代碼就均為自研，面向國產芯片開發，既能在昇騰、沐曦、海光、摩爾線程等廠商的國產芯片上運行，也能在進口芯片上運行，具備較強的兼容性，為行業節約了大量重複工作的成本。在適應國產算力方面，赤兔引擎沒有像很多現有方案那樣簡單挪用vLLM、SGLang等現成技術，而是真正考慮國產芯片與英偉達芯片在計算能力、數據表達能力、硬件調度和通信方式等方面的差異，在技術上做了針對性突破。例如，他們通過軟件實現對FP8/FP4等浮點數量化類型的支持，在有硬件支持的GPU上可以節省顯卡並提升速度，在沒有硬件支持的國產卡上則可以有效降低成本並達到可用的使用價值。總體而言，赤兔這樣的國產推理引擎在國產算力和國產模型之間搭建起重要的橋樑，完善了整個生態，助力國產AI推理鏈條實現自主可控。四、談模型架構演進與國產算力生態會後，翟季冬、師天麾、唐適之與智東西等媒體進行了深入溝通。唐適之向我們介紹了赤兔推理引擎的技術積累。大模型興起之前，流體力學模擬、藥物設計相關的計算需求也很高，如今AI Infra層的許多技術都源自於高性能計算。清程極智核心團隊所來自的清華大學計算機系高性能所，已經在這方面有幾十年的技術積累。談及國產算力生態的建設，唐適之回憶起了英偉達的往事。唐適之稱，之前他還在清華學習時，英偉達會主動向他們贈送免費GPU，為的就是打造生態，如今英偉達的生態已經較為成熟，其芯片也成為緊俏的商品。目前，各大國產芯片廠商都在自建生態，但這些生態都相對獨立。不同國產廠商的所需要的技術很多都是共通的，清程極智想做的就是站在更宏觀的視角，服務整個國產算力的發展。智東西向唐適之詢問了國產芯片適配過程中的具體細節。唐適之解釋稱，芯片能力的發揮不僅依賴硬件本身，更依賴系統軟件的深度優化。當前國產算力適配涉及算子庫、編譯器、並行方案等多個技術層面，它們解決的是同一問題：如何讓芯片將更多時間投入真實有效計算，而不是消耗在無效的數據搬運和通信開銷上。他舉例稱，算子庫更偏向手工優化，能夠精細調用芯片計算單元；編譯器則偏向自動優化，但自動生成的效果未必始終最優。因此，在實際部署中，需要綜合不同技術手段，根據芯片架構特點選擇最適合的方案，有時甚至需要多種方式協同使用。對於市場關注的“Token越來越便宜”趨勢，師天麾則從供需關係與調度效率角度給出了觀察。他認為，大模型推理成本下降並不意味著Token不再緊缺。當前國內推理需求仍在快速增長，尤其長上下文、多輪交互等應用興起後，Token消耗速度遠超以往，而算力供給卻難以同步擴張。師天麾透露，清程極智正在嘗試通過評測和智能調度提升算力利用率。“全中國總會有一些服務繁忙，也會有一些服務空閒，但過去業界並不知道誰繁忙誰空閒。”有了AI Ping之後，清程極智可以用更便宜的價格獲得Token、並以更便宜的價格對外提供服務，提高算力的利用率，然後同時也給用戶來降低成本。翟季冬則分享了他對大模型技術路線演進的看法。他認為：“如果朝著AGI方向看，上層模型其實遠遠沒有收斂，還有很多探索空間。” 未來模型架構並不一定侷限於傳統自迴歸（Auto-regressive）路線。例如，去年螞蟻曾探索基於擴散機制的語言模型方向，其技術路徑與傳統自迴歸架構有所不同，目前包括螞蟻在內的一些企業仍在持續推進類似嘗試，谷歌此前也進行過相關探索。與此同時，多模態統一模型也成為行業關注的重要方向。目前文本問答、圖片生成、視頻生成等能力大多仍由不同模型分別承擔，但越來越多企業正在嘗試將文本、圖片和視頻整合到統一模型之中，實現多模態能力的一體化。儘管翟季冬並非直接從事大模型研究，但結合與相關企業的交流和觀察，他感受到，整個行業仍在積極探索模型架構，未來仍有望出現新的模型架構與技術路線。結語：AI Infra效率成競爭焦點隨著大模型逐漸普及，模型背後的基礎設施效率愈發成為AI行業的競爭焦點。誰能更低成本、更穩定、更高質量地提供Token服務，誰就更有機會佔據下一階段優勢。與此同時，國產算力生態也在加速發展，行業對於新型架構、互聯效率和系統級優化的探索明顯加速，轉向“芯片+軟件棧+推理引擎+應用生態”的整體協同。

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析