雷峰網生成式AI

一顆288核的至強6+,為什麼能同時運行500個Agent?

2026年6月1日 10:20

重點摘要

過去兩年,AI基礎設施行業有一個幾乎無人質疑的共識:GPU決定AI的上限。從大模型訓練到推理部署,產業的關注點幾乎都圍繞著GPU展開。顯存夠不夠大、帶寬夠不夠高、Token吞吐量能達到多少,成為衡量AI基礎設施能力的核心指標。但Agent的出現,正在改變這套邏輯。與傳統聊天機器人不同,Agent並不只是完成一次問答,而是需要持續執行任務。它需要調用工具、訪問數據庫、瀏覽網頁、管理記憶系統,甚至不斷創建和調度新的子Agent協同完成工作。當AI開始從生成答案轉向執行任務,一個長期被GPU光環掩蓋的角色重新回到了舞臺中央——CPU。Computex 2026臺北國際電腦展期間,英特爾發佈了首款基於Intel 18A工藝打造的數據中心處理器——至強6+(代號Clearwater Forest)。這款處理器擁有288個能效核(E-Core),還擁有一個非常吸引人的特性,在實際測試中,一顆288核至強6+可以輕鬆同時部署400至500個Agent。這背後折射出的,並不僅僅是一顆新CPU的發佈,而是Agent時代AI基礎設施底層邏輯的一次深刻變化。一顆CPU能同時運行500個Agent的關鍵是什麼?如果說ChatGPT時代的AI更像一個超級搜索框,那麼Agent時代的AI更像一個數字員工。一個典型Agent任務往往包含多個環節:用戶提出需求,Agent拆解任務,調用多個工具,查詢知識庫,啟動多個子Agent協同處理,最終彙總結果並返回。整個過程中,真正負責生成內容的依然是GPU,但大量調度、編排、路由、資源管理以及任務協調工作,則落在了CPU身上。英特爾數據中心集團技術產品總監楊錦文表示:"隨著生成式AI帶來的發展,CPU和GPU的配比正在從傳統的1:8逐漸變成1:4、1:2,甚至1:1的場景,在部分強化學習場景中甚至出現了反轉。"1:1,甚至CPU比GPU更多——這個比例放在三年前幾

站內 AI 整理稿

過去兩年,AI基礎設施行業有一個幾乎無人質疑的共識:GPU決定AI的上限。從大模型訓練到推理部署,產業的關注點幾乎都圍繞著GPU展開。顯存夠不夠大、帶寬夠不夠高、Token吞吐量能達到多少,成為衡量AI基礎設施能力的核心指標。但Agent的出現,正在改變這套邏輯。與傳統聊天機器人不同,Agent並不只是完成一次問答,而是需要持續執行任務。它需要調用工具、訪問數據庫、瀏覽網頁、管理記憶系統,甚至不斷創建和調度新的子Agent協同完成工作。當AI開始從生成答案轉向執行任務,一個長期被GPU光環掩蓋的角色重新回到了舞臺中央——CPU。Computex 2026臺北國際電腦展期間,英特爾發佈了首款基於Intel 18A工藝打造的數據中心處理器——至強6+(代號Clearwater Forest)。這款處理器擁有288個能效核(E-Core),還擁有一個非常吸引人的特性,在實際測試中,一顆288核至強6+可以輕鬆同時部署400至500個Agent。這背後折射出的,並不僅僅是一顆新CPU的發佈,而是Agent時代AI基礎設施底層邏輯的一次深刻變化。一顆CPU能同時運行500個Agent的關鍵是什麼?如果說ChatGPT時代的AI更像一個超級搜索框,那麼Agent時代的AI更像一個數字員工。一個典型Agent任務往往包含多個環節:用戶提出需求,Agent拆解任務,調用多個工具,查詢知識庫,啟動多個子Agent協同處理,最終彙總結果並返回。整個過程中,真正負責生成內容的依然是GPU,但大量調度、編排、路由、資源管理以及任務協調工作,則落在了CPU身上。英特爾數據中心集團技術產品總監楊錦文表示:"隨著生成式AI帶來的發展,CPU和GPU的配比正在從傳統的1:8逐漸變成1:4、1:2,甚至1:1的場景,在部分強化學習場景中甚至出現了反轉。"1:1,甚至CPU比GPU更多——這個比例放在三年前幾乎不可想象。而這,恰恰是至強6+發佈的背景。對於Agent來說,CPU面臨兩個全新的挑戰。第一個挑戰是密度。企業希望在同樣的機架空間內運行更多Agent,隨著Agent數量增加,CPU需要同時管理大量任務調度和資源分配。第二個挑戰是響應速度。Agent運行過程中會頻繁創建、啟動和銷燬任務實例,如果啟動速度過慢,即便擁有足夠算力,也難以滿足實際業務需求。英特爾SoC架構專家曾義說,"要滿足Agent頻繁創建、啟動和銷燬任務實例的特性,希望在同一顆CPU上部署更高密度的工作負載。這也是為什麼至強6+是首款單SoC支持288個核的架構,這能夠幫助我們以非常好的TCO(總體擁有成本)去滿足Agent上的需求。"為了實現這種密度,英特爾在至強6+上採用了英特爾Foveros Direct 3D的三維封裝技術。具體而言,是將基於Intel 18A工藝製造的計算Tile,垂直堆疊在基於Intel 3工藝的底層Tile之上,再通過EMIB封裝技術完成各模塊之間的互聯。整顆處理器由4個基於18A工藝的計算芯片構成,每個芯片包含24個核心,堆疊在3顆基底芯片上方,基底芯片則集成了片上網狀互聯架構、末級緩存和內存子系統——一共29個芯片組件,才構成了這顆288核的處理器。內存規格同樣針對Agent以及傳統負載的需求進行了強化:12通道DDR5,運行速率最高8000 MT/s,末級緩存高達576MB,比上一代產品提升超過5倍。96條PCIe Gen 5通道則保證了跨設備的數據流動不會成為瓶頸。清楚至強6+的特性後,再來看至強6+能夠用1顆芯片運行數百個Agent的原因。楊錦文說,具體能運行多少個Agent,取決於具體的配置。雲服務中常見配置,通常是"2個核心配4G內存"或"1個核心配2G內存"。按照這個標準,288核架構下同時部署400至500個Agent"已經是很常規的操作"。他也補充:"上限取決於客戶自身的訴求,以及要在什麼樣的SLA(服務等級協議)的服務協議下提供Agent服務。"換句話說,Agent時代對CPU的新要求,不再只是跑得快,而是能同時管理更多任務。在性能提升方面,至強6+對比上一代產品整體性能最高提升2.26倍,每瓦性能最高提升1.55倍。與同類競爭產品相比,每線程性能和每線程每瓦性能均高出最多30%,後者是虛擬化數據中心工作負載最核心的評估維度。對於使用第二代至強的客戶,升級至強6+的理由更加直接,服務器整合比可以達到9:1,物理空間減少近80%,能源節省73%。德意志電信旗下的T-Systems已將至強6+定位為其T-Cloud私有智能體AI基礎設施的關鍵組件,理由正是海量內核數量與出色的能效。Agent時代,網絡成為瓶頸過去幾年,AI產業形成了一種慣性思維:GPU決定一切。但Agent正在讓行業意識到一個新的現實——系統能力開始比單芯片能力更重要。一個Agent完成任務的完整流程是:CPU負責調度,GPU負責推理,網絡負責數據交換,內存負責上下文保存,軟件負責資源編排。任何一個環節出現瓶頸,都會影響最終的體驗。英特爾執行副總裁兼數據中心事業部總經理Kevork Kechichian指出:"AI的擴展之道,不在於各部件的疊加,而在於系統的協同運作。隨著AI走向智能體時代,編排、併發與數據流動成為了新的限制因素。"這也是為什麼英特爾在發佈至強6+的同時,還發布了全新的以太網E835控制器及網絡適配器。因為當數百個Agent同時工作時,網絡已經成為影響效率的重要因素。長期以來,網卡在AI基礎設施中的存在感並不高。但當Agent開始頻繁調用外部工具和服務,節點之間的東西向流量迅速增長,網絡的重要性開始上升。英特爾技術專家Kevin Cai告訴雷峰網:"AI的發展正在對網絡帶寬、時延以及能效提出全新要求,網絡已經成為現代AI基礎設施中的關鍵組成部分。"E835支持最高200GbE吞吐量,覆蓋2×25GbE、4×25GbE、2×100GbE、1×200GbE等多種端口配置,可通過英特爾以太網端口配置工具(EPCT)靈活定製。完成首次驗證後,僅需兩步即可重新配置端口數量和速率。RDMA(RoCEv2/iWARP)支持可繞過CPU直接在服務器之間傳輸數據,動態設備個性化(DDP)技術則進一步降低了數據包處理開銷。E835真正的差異化在功耗上。英特爾給出的數據是,在滿載200G線速運行時,E835的功耗比同類主要競爭對手低28%至47%,最終實現1.4至1.9倍的每瓦性能優勢。對於正在把越來越多算力集中進機架的數據中心來說,同樣的散熱和供電預算意味著可以部署更高密度的網絡。在電信場景中,E835還有一個容易被忽略的細節,配合至強6+的高精度時鐘提取功能,可以在5G專網中以約10納秒的精度實現時鐘同步,這個能力過去需要專門的昂貴設備才能實現。愛立信在實際運營商部署中測試至強6+的數據也已印證,在相同核心數下,性能提升30%,每瓦性能提升60%以上,機架功耗下降38%。E835還提供超過10年的產品生命週期,這對需要長期穩定運營的電信和企業客戶來說,是降低長期TCO的重要保障。為Agent而生的480GB顯存GPU如果說至強6+解決的是Agent的調度問題,那麼英特爾下一代數據中心GPU——代號Crescent Island,則瞄準了另一個瓶頸:內存。在Agent時代,內存正在變成核心競爭力。因為Agent不僅需要推理,還需要長期記憶、上下文保存、多模型協同以及頻繁切換不同任務。越來越長的上下文窗口以及不斷增長的KV Cache需求,使得顯存容量的重要性迅速提升。Crescent Island基於Xe 3P架構,最大的差異化不是算力,而是高達480GB的超大內存容量。英特爾選擇了LPDDR5x顯存方案,相比HBM功耗更低,成本更具競爭力,同時將整卡功耗控制在350W,可直接部署在現有風冷數據中心中,無需液冷改造。Crescent Island是為Agentic AI而生。480GB意味著什麼?楊錦文解釋,以DeepSeek-V4模型的參數量為例,在FP8量化精度下,僅需4張Crescent Island就可以支持這個模型的完整部署。更大的內存容量還意味著可以同時在顯存中保留多個模型,Agent在不同任務之間切換時無需頻繁加載,響應速度會快得多。但如果想獲得更理想的運行效果,確實還需要更多的顯存容量來支撐。此外,Crescent Island支持從原生FP4/MXFP4到FP64的廣泛數據類型,PCIe兼容的外形規格進一步降低了擴展門檻。目前已有超過20家OEM和ODM廠商正針對該產品進行開發,更多細節將在未來幾個月陸續披露。英特爾技術專家指出,Crescent Island GPU走是一條極高性價比的路線,非常適合端側或者是企業的典型場景,比如說一機8卡或者是一機16卡的部署。在軟件支持方面,Crescent Island GPU將提供開箱即用的廣泛模型軟件支持,圍繞四個原則構建統一的 Xe 軟件棧,即開放、規模化性能、優秀的用戶體驗以及支持異構基礎設施。從CPU公司,到AI系統公司從一個整體的視角看英特爾至強6+的發佈,會發現一個有趣的現象,英特爾發佈的並不是一款產品,而是一套體系——CPU、GPU、網絡、軟件生態同時出現,全部圍繞同一個主題展開。這背後反映出英特爾數據中心戰略的一次深層轉變。過去的數據中心競爭,本質上是單芯片競爭。而Agent時代正在讓這種邊界消失,因為Agent運行需要的是完整系統,CPU負責控制平面,GPU負責推理平面,網絡負責數據流動,軟件負責資源編排,任何單一環節都無法獨立完成任務。軟件生態是英特爾在這場競爭中的另一張牌。其統一Xe軟件棧已支持PyTorch、vLLM、SGLang等主流框架,堅持上游優先策略,不構建封閉生態,而是把對英特爾硬件的支持直接貢獻到開源框架的上游代碼裡,每款新硬件發佈都提供Day 0的即刻支持。未來開發者可以在銳炫Pro平臺上完成開發,再無縫部署到Crescent Island上,前向和後向兼容性都有保障。有些技術積累,只有到了Agent時代才被重新發現價值。曾義提到了一個例子,英特爾多年前推出的IAA(Intel In-Memory Analytics Accelerator),可以在內存層做壓縮和解壓縮加速。當時客戶興趣有限,但Agent需要頻繁快速地換入換出上下文狀態,IAA的價值突然變得清晰。國內幾家大的頭部客戶在與我們進行討論和演進的時候,這個項目的進展速度也非常快。CXL內存擴展同樣如此,通過CXL在多個CPU之間共享大容量內存池,正在成為Agent大規模部署時的重要基礎設施選項。在英特爾面向生成式AI的產品組合,CPU依舊是值得關注的重點。雷峰網瞭解到,英特爾下一代至強CPU代號Diamond Rapids,將基於Intel 18A P工藝,採用16通道內存配置,提供更多PCIe通道,預計2027年發佈。至強6+和Diamond Rapids之間保持完整的Socket兼容性,客戶不需要為了升級重構整套基礎設施。過去幾年,AI行業最大的敘事是GPU統治世界。但Agent的出現,正在讓產業重新審視CPU的價值。對於英特爾而言,至強6+最重要的意義或許並不只是288個核心,也不只是Intel 18A首次進入數據中心市場。更重要的是,它正在證明一件事,當AI從生成答案走向執行任務,CPU依然是整個AI基礎設施不可替代的控制平面。而隨著Agent規模持續擴大,CPU、GPU、網絡與軟件共同構成的系統能力,或許才是下一階段AI競爭真正的核心。

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前