被遺忘十年的LPU翻紅,一門新生意成立了嗎?
重點摘要
當AI從訓練走向推理時代之後,單一通用架構開始觸及效率邊界。變化由此發生——“只用GPU打天下”的故事難以延續,專業化分工逐漸成為芯片行業的共識。越來越多企業嘗試將不同計算任務拆解給不同類型芯片處理。谷歌在新一代TPU上推進訓推分離;Anthropic押注存內計算架構;SambaNova推出“CPU+GPU+RDU”系統方案;Cerebras則選擇以晶圓級芯片挑戰傳統GPU集群。其中最具代表性的案例,是被黃仁勳“捧紅”的Groq。隨著Groq LPU(Language Processing Unit,語言處理單元)被納入英偉達Vera Rubin平臺,原本被視為“小眾路線”的LPU第一次進入主流AI基礎設施體系。對於行業而言,這不僅宣告了一種新芯片獲得認可,更意味著推理時代開始接受不同芯片處理不同任務的邏輯。國內市場同樣感受到這股風向。圍繞數據流架構、SRAM高帶寬存儲以及其他推理加速方向,各類新方案不斷湧現,想要講出自己那版LPU故事的玩家也接連冒頭。(更多技術故事和商業內幕,歡迎添加作者微信Evelynn7778交流)當AI芯片專業化分工趨勢日漸明朗,LPU究竟是一種階段性熱點,還是推理時代長期存在的新工種?而當賽道逐漸變得擁擠,LPU或許是一種成立的需求,但獨立LPU公司會是一門成立的生意嗎?被遺忘十年的LPU,為什麼突然紅了?用25%的Groq LPU搭配75%的Vera Rubin來應對源源不斷的高價值Token生成需求,這是英偉達給出的最新方案。打法背後,是Agent時代對規則的改寫:AI應用不再只是一次性問答,持續推理的工作流正在引發Token洪流;基礎設施競爭不斷升維,從單芯片性能比拼邁向系統層級的效率優化。於是,Transformer推理過程中的每一道工序開始被重新丈量和打磨。最先被看清的是Prefill與Decode——一個更關注算力密度,另一個更依賴響
當AI從訓練走向推理時代之後,單一通用架構開始觸及效率邊界。變化由此發生——“只用GPU打天下”的故事難以延續,專業化分工逐漸成為芯片行業的共識。越來越多企業嘗試將不同計算任務拆解給不同類型芯片處理。谷歌在新一代TPU上推進訓推分離;Anthropic押注存內計算架構;SambaNova推出“CPU+GPU+RDU”系統方案;Cerebras則選擇以晶圓級芯片挑戰傳統GPU集群。其中最具代表性的案例,是被黃仁勳“捧紅”的Groq。隨著Groq LPU(Language Processing Unit,語言處理單元)被納入英偉達Vera Rubin平臺,原本被視為“小眾路線”的LPU第一次進入主流AI基礎設施體系。對於行業而言,這不僅宣告了一種新芯片獲得認可,更意味著推理時代開始接受不同芯片處理不同任務的邏輯。國內市場同樣感受到這股風向。圍繞數據流架構、SRAM高帶寬存儲以及其他推理加速方向,各類新方案不斷湧現,想要講出自己那版LPU故事的玩家也接連冒頭。(更多技術故事和商業內幕,歡迎添加作者微信Evelynn7778交流)當AI芯片專業化分工趨勢日漸明朗,LPU究竟是一種階段性熱點,還是推理時代長期存在的新工種?而當賽道逐漸變得擁擠,LPU或許是一種成立的需求,但獨立LPU公司會是一門成立的生意嗎?被遺忘十年的LPU,為什麼突然紅了?用25%的Groq LPU搭配75%的Vera Rubin來應對源源不斷的高價值Token生成需求,這是英偉達給出的最新方案。打法背後,是Agent時代對規則的改寫:AI應用不再只是一次性問答,持續推理的工作流正在引發Token洪流;基礎設施競爭不斷升維,從單芯片性能比拼邁向系統層級的效率優化。於是,Transformer推理過程中的每一道工序開始被重新丈量和打磨。最先被看清的是Prefill與Decode——一個更關注算力密度,另一個更依賴響應速度和系統吞吐能力。但行業很快發現,即使在Decode內部,不同工作負載的最大訴求也不盡相同:Attention(注意力機制)忙於搬運和讀取海量KV Cache,大量Token生成任務則落在FFN(前饋神經網絡)身上。當差異被看見,分工協作的需求也愈發迫切。不同類型芯片開始進入推理系統,各自承擔最擅長的工作。Groq LPU正是在這一背景下重新進入市場視野,作為Vera Rubin平臺中的新增角色,以LPX系統形式專攻FFN相關工作流。某種程度上,這也釋放了“推理不再綁定單一架構”的信號。“超低延遲推理等不適合GPU處理的極端場景,就可以交付給LPU。”芯片架構師方曉表示,“相當於開了一條高速通道專門服務客戶。”事實上,LPU並非橫空出世。Groq成立於2016年,其核心架構設計同樣誕生於上一個AI時代。但過去很長時間裡,這類專用芯片始終沒有進入主流市場。轉折點出現在系統級創新成為行業共識之後。據悉,2025年初英偉達首次向合作伙伴開放NVLink互聯生態後,Groq主動尋求接入機會,希望獲得這一原本用於GPU之間通信的協議支持。隨著GPU與LPU協同運行的可能性得到驗證,雙方合作開始具備現實基礎。而英偉達自身戰略的變化,帶來更大的想象空間。AI系統架構師徐先生觀察到,未來針對Transformer推理範式設計的新型芯片會越來越多。“通過單顆芯片實現領先的時間正在縮短。”他表示,“而憑藉系統級架構創新,英偉達的領先優勢很可能從幾個月拉長到1-2年。”換句話說,對於英偉達而言,引入LPU並非為了取代GPU,而是希望找到更適合承擔特定推理任務的角色。(關於當前業內異構方案的真實落地情況,歡迎添加作者微信Evelynn7778交流)專業化分工為LPU帶來新的機遇,但能否把機會變成市場,卻是另一回事。當越來越多企業開始扎堆LPU賽道,一個更現實的問題正浮出水面:LPU被寄予厚望的技術優勢,含金量到底有多大?LPU的兩張王牌,有多少含金量?LPU最常被提及的“看家”本領之一,是Groq引以為傲的編譯器及其靜態調度能力。方曉認為,外界對LPU最大的誤解,是將其優勢簡單歸結為單芯片性能。“單芯片的確定性延遲並非LPU獨有,所有ASIC都能做到。真正難的是多芯片間、機櫃間和集群間的精確編排。”在她看來,這才是LPU最深的護城河,也是國內非大廠企業很難突破的壁壘。但曾在大廠負責芯片軟件棧設計的Tim對此持保留態度,認為編譯能力的價值與模型形態密切相關。在CNN時代,模型結構豐富、算子種類繁多,編譯器擁有許多大顯身手的可能。但隨著Transformer成為行業主流,大模型的核心算子不斷收斂,大量層結構高度重複。“這反而收窄了編譯器能夠發揮的優化空間。”Tim直言。與此同時,MoE(Mixture of Experts,混合專家)等動態架構的興起,也在削弱全靜態系統的優勢。“現在這個時代,幾乎所有頂流模型都有MoE結構。”Tim說,“推理時具備的動態性,對全靜態系統並不是特別友好。”他進一步解釋,不同請求在推理過程中激活的專家組合並不相同,而這些信息在編譯階段無法提前獲知。對此,Mark也表達了類似觀點,他創辦的非GPU芯片企業,目前已獲得多家頭部美元基金投資。“為了保證系統始終按照預定節奏運行,編譯器只能先為最壞情況做打算。”他指出,“被固化的硬件側也需要保留一定冗餘來維持整體同步,這使得部分理論優勢會被抵消。”圍繞LPU的軟件能力,業內尚未形成統一結論。相比之下,另一張存儲“王牌”SRAM似乎更容易被量化。不少從業者表示,這才是LPU最核心的競爭力。英偉達公開的數據顯示,單顆Groq 3 LPU SRAM帶寬為150 TB/s,大約是採用H100 HBM3的45倍。在256顆LPU組成的LPX機櫃中,總帶寬進一步被推高至40 PB/s(注:1 PB/s=1000 TB/s)。除高帶寬能力外,芯片行業從業者楊越認為這一路線的優勢還在於繞開了HBM供應鏈和先進封裝的限制。在當前AI芯片成本結構中,存儲的影響力持續上升。Epoch AI數據顯示,HBM佔AI芯片組件成本的比例已經從2024年初的52%增長至2025年底的63%。當越來越多成本被HBM吞噬時,市場開始重新審視SRAM路線的價值,但分歧依舊存在。資深芯片產品負責人顧玥直言:“SRAM其實是LPU巨大的缺陷。”她認為,SRAM最大的特點是快,但代價是容量小、單位成本高。“它更像芯片裡的法拉利,賣點是性能,而不是性價比。”顧玥形容道。不過,IO資本創始合夥人趙佔祥並不完全認同這種看法。他認為,單純比較存儲單價並沒有太大意義。“相比SRAM只有幾百MB,HBM動輒幾十GB甚至上百GB。即便SRAM單位價格比HBM貴,但在容量差距面前,HBM最終承擔的總成本反而可能更高。”SRAM也有自己的容量焦慮。有十餘年經驗的芯片計算架構專家曉東指出,SRAM直接集成在芯片內部,需要與計算單元共享同一塊硅片。這意味著面積分配始終是一道難題。“DRAM一個存儲單元只需要1個晶體管和1個電容,而SRAM需要6個晶體管。”他進一步補充,“同樣面積下,SRAM能存放的數據天然更少。”公開數據顯示,Groq 3 LPU集成約500MB SRAM,而TPU 8i約為384MB。雖然Cerebras WSE-3憑藉晶圓級集成方案將容量提升至44GB,但代價是良率和成本的雙重暴擊。討論SRAM便宜還是昂貴有不同的角度。而更值得拷問的其實在於:推理時代究竟該用什麼指標衡量價值?Mark認為是Token。在他看來,一場從“系統成本”到“Token成本”的評價體系切換正在發生。過去幾年,行業習慣討論“多少張卡可以部署一個模型”。因此,大量廠商都在強調用更少GPU完成部署。“但當推理部署規模大到一定程度時,最小系統成本已經不再是首要考量。”Mark說。他舉例稱,一些方案雖然可以用8張GPU完成模型部署,但推理成本未必最低。而在DeepSeek公開採用144張卡構建推理集群后,行業開始意識到另一種可能性。“儘管整體系統成本顯著提高,但更大的集群規模換來了更高的帶寬、更高的Token吞吐量以及更低的單位Token成本。”Mark分析。由此SRAM的價值也將被重新考量。只是這套邏輯是否能夠長期成立,仍有待檢驗。分歧尚未消失,LPU的優勢代價也真實存在。但至少有一點已經形成共識:LPU已經拿到了推理系統的入場券。而其接下來要回答的,是市場一直追問的另一個現實問題——這是一門能夠持續賺錢的生意嗎?(有關推理加速芯片的更多前景,可添加作者微信Evelynn7778互通有無。)推理時代需要「法拉利」,但誰來買單?在獲得英偉達加持之前,Groq已憑藉獨立的端到端推理部署能力,拿下沙特推理基礎設施項目、在歐洲部署大型算力中心,並進入Meta的Llama生態。從這個角度看,Groq的能力並不完全來自技術。“選擇押注這條賽道的企業一定要有目標客戶。”趙佔祥解釋,“因為軟件再怎麼編譯,最終還是要針對具體應用進行優化。”換句話說,LPU的商業化難點不只在於技術實現,還取決於是否有人願意買單。但一個不容忽視的問題是——最需要LPU的人,往往也最有能力自研。徐先生觀察到,已經有大模型公司和互聯網大廠開始行動。“相對於GPU來說,LPU會簡單很多,只要給一兩年時間就能做出來。”他表示。(更多大廠推理加速芯片自研內幕和進展,歡迎添加作者微信Evelynn7778一起交流)但潛在客戶變對手還不是最壞的消息。“創企想靠LPU活不下去,需要找到‘大眾’。英偉達是在擁有‘大眾’的基礎上,再增加一輛‘法拉利’,屬於錦上添花。”顧玥直言。Mark指出,這種分工未來還會繼續深化。“Attention和FFN之間的解耦程度很高,中間通信帶寬要求並不高。”因此在他看來,異構系統並不會帶來外界想象中的巨大成本。Tim也認為,未來推理方案大概率會以異構形態存在。“當每一點優化都能帶來上億美元回報時,研發成本很容易被攤薄。”不過即便異構趨勢成立,市場對於獨立LPU公司的前景依然存在疑慮。據趙佔祥觀察,很多企業已經在探索類似路線——用大容量SRAM和分佈式存儲來完成推理的工作負載。“只不過現在統一叫LPU”。他一語道破。(作者長期跟蹤相關項目進展,歡迎添加微信Evelynn7778交流)方曉聯想到DPU的發展歷程。2020年前後,隨著DPU概念興起,大量創業公司湧入賽道,幾年過去後,不少企業轉型。在她看來,LPU有可能重演類似劇本,原因之一在於漫長的市場培育週期。趙佔祥解釋,任何一種新計算架構都需要時間沉澱,恰如英偉達GPU歷經十年才實現大規模普及。但這對於創業企業來說,卻是最致命的風險。作為高度專用化的ASIC,LPU天然依賴當前主流模型架構。如果未來基礎模型改弦更張,相關優化價值也可能被重新評估。對此,Mark也從另一角度給出回應:“這反而給了創業公司機會,因為大廠未必願意承擔這種高風險。”而曉東則相對樂觀。他指出,從CNN時代的AlexNet引爆現代深度學習浪潮開始,過去十餘年AI範式雖然不斷演進,但底層邏輯並未發生根本改變。未來的新架構更可能是Transformer的Plus版。Tim也給出了類似判斷:“只要模型仍然需要從海量知識中篩選、調用和組合信息,對高帶寬的需求就不會消失。基於這個需求來設計芯片,即使Transformer被替代,芯片本身也不會因此作廢。”市場從不缺乏新芯片的故事。真正決定一家LPU企業能否活下來的,未必是它擁有多先進的架構,而是它能否在市場成熟之前找到客戶、場景與生態。畢竟,推理時代或許確實需要越來越多“法拉利”。但對於大多數創業公司而言,比造出一輛法拉利更難的,是找到那個願意長期購買“大眾+法拉利”組合的人。作者持續關注AI算力芯片上下游,更多信息可添加作者微信Evelynn7778交流。#文中方曉、顧玥、楊越、曉東、Mark和Tim均為化名。雷峰網雷峰網
Related
相關文章
阿里Meoo CLI上線QoderWork技能市場,打通Vibe Coding最後一公里
Meoo CLI是面向本地AI編程助手的命令行工具,讓本地助手從“只能幫用戶寫代碼”升級至“幫用戶寫完代碼並部署上線”,打通了Vibe Coding的最後一公里。Meoo CLI不僅上線了QoderWork技能市場,也同時接入了Qoder desktop插件市場,用戶在QoderWork或Qoder中完成本地項目後,只需輸入“使用Meoo CLI補齊雲端能力併發布上線”等自然語言指令,系統即可自動理解項目結構,調用Meoo CLI完成對應的服務接入與發佈,極大降低了應用上線的技術門檻。

華為汪濤預判2030:全球智能體千億規模重寫通信格局
這篇消息聚焦「華為汪濤預判2030:全球智能體千億規模重寫通信格局」。原始導語提到:通訊行業迎來全新智能時代 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
一天不到領了10萬臺!螞蟻阿福AI體脂秤全網搶瘋了
您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器 此為臨時鏈接,僅用於文章預覽,將在時失效 業界 正文 發私信給徐咪 發送 0 一天不到領了10萬臺!螞蟻阿福AI體脂秤全網搶瘋了 本文作者: 徐咪 2026-06-25 18:34 導語:體脂秤,搶瘋了!6月25日,螞蟻阿福“科學減重1億斤”健康行動正式上線,同步開啟超低價AI體脂秤的領取通道。最新數據顯示,自上午10:00起,這款體脂秤的領取量 體脂秤,搶瘋了!6月25日,螞蟻阿福“科學減重1億斤”健康行動正式上線,同步開啟超低價AI體脂秤的領取通道。最新數據顯示,自上午10:00起,這款體脂秤的領取量已突破10萬臺,一舉刷新天貓體脂秤單日銷量紀錄。 記者瞭解到,體脂秤生產廠家——沃萊科技單日發貨量已達5萬臺,產線火力全開,倉庫和流水線堆滿了待打包的體脂秤,並且已緊急啟動招聘。一位電焊小哥被工友戲稱為“焊武帝”,每天焊接近千臺。小哥直呼“自己焊的不是電路,是全國人民的變瘦之路”。體脂秤向來是健身賽道里的小眾品類。誰能想到,阿福一個減重項目,直接讓它一夜爆單,過出了“雙11”的架勢。同時,這也讓體脂秤走到了更廣泛的大眾視野,有望從“吃灰神器”變成“減重剛需”。據瞭解,7月初,阿福“減重1億斤”PK賽也即將上線,“全民減重”熱度還將持續。 0人收藏 分享: 相關文章 螞蟻 阿福 減重 螞蟻集團聯合Rokid、雷鳥發起AI眼鏡智能體開發者大賽 ... 響應國家「體重管理年」,螞蟻阿福發起「科學減重1億 ... ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重 ... 健康AI阿福測試“醫生把關”新功能:打開“AI+醫生” ... 徐咪 編輯 發私信 當月熱門文章 藍信發佈2026全棧AI新品,打造100%國產化政企智能辦公新範式 SoulAgent 即將亮相北京
亞馬遜雲科技數據庫大佬G2:AI Agent正在倒逼數據庫“進化”,重構不是唯一選擇
在他看來,AI Agent的爆發不僅僅是一個技術熱點,更是一場倒逼數據基礎設施全面升級的浪潮。亞馬遜雲科技數據庫服務副總裁Ganapathy “G2” KrishnamoorthyG2是一位資深數據庫專家,在該領域擁有超過20年的深厚積累。數據庫的新角色是Agent的“記憶海綿”G2指出,AI Agent與傳統程序最根本的區別在於它擁有“上下文”和“記憶”。G2談到的亞馬遜雲科技的數據庫戰略,可以說正是對這一判斷的技術落地。

“中國版Mythos”:比得上嗎,來得及嗎?
這篇消息聚焦「“中國版Mythos”:比得上嗎,來得及嗎?」。原始導語提到:智能體對所有事情進行了無差別的加速,包括網絡攻擊。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
螞蟻集團聯合Rokid、雷鳥發起AI眼鏡智能體開發者大賽,面向全社會廣泛招募
6月24日,螞蟻集團與靈伴科技(Rokid)、雷鳥創新共同啟動“GPASS AI眼鏡智能體開發者大賽”。該賽事面向全球開發者開放報名,旨在推動AI眼鏡端側智能體的應用開發,是國內首個聚焦該領域的開發者賽事。據艾媒諮詢最新發布的《2026-2027年中國AI眼鏡行業趨勢白皮書》,2025年全球智能眼鏡市場規模已達125.8億美元,預計2029年將增至1387.3億美元。AI眼鏡自2025年迎來市場爆發,技術成熟、大廠入局、場景落地是主要驅動力,錄音、拍攝、翻譯、支付等功能已落地剛需場景。但白皮書同時指出,當前AI眼鏡生態土壤仍較薄弱,構建豐富的應用與內容生態是其從“小眾科技玩具”邁向“下一代智能終端”的關鍵所在。GPASS項目負責人表示,AI眼鏡已完成初步的硬件廠商覆蓋,當前需要拉動開發者端的產品與服務供給。隨著AI眼鏡從早期科技消費品逐步向日常生活助手延伸,其第一視角、實時交互和解放雙手的特性,可能催生區別於手機端的新型應用形態。螞蟻集團自主研發的智能終端可信連接技術框架——GPASS,為行業開發者帶來全新技術支撐。GPASS藉助螞蟻智能體開發平臺「百寶箱」這一載體,面向行業提供AI眼鏡核心端側能力套件,將鏡腿觸控、語音採集、攝像頭調用等硬件能力封裝為標準化API。GPASS通過“技術標準化+智能體框架”的模式,助力智能體開發者高效完成快速完成AI眼鏡上的多樣化智能體配置與搭建,全程無需針對不同品牌的眼鏡系統進行繁瑣的適配。據悉,大賽設置生活健康、生產辦公、旅遊出行三大場景賽道,以及無顯示AI眼鏡賽道。參賽者需基於AI眼鏡設備與螞蟻「百寶箱」智能體開發平臺上的GPASS智能眼鏡研發模板,完成智能體開發並提交可運行的Demo。參賽開發週期約10天,7月中下旬將在上海舉行線下路演及頒獎。總獎金池超過15萬元,每賽道決出3支優勝團隊,金獎最高2.5萬元,無顯示AI眼鏡賽道同時設置