一顆288核的至強6+，為什麼能同時運行500個Agent？

2026年6月1日 10:20

重點摘要

站內 AI 整理稿

過去兩年，AI基礎設施行業有一個幾乎無人質疑的共識：GPU決定AI的上限。從大模型訓練到推理部署，產業的關注點幾乎都圍繞著GPU展開。顯存夠不夠大、帶寬夠不夠高、Token吞吐量能達到多少，成為衡量AI基礎設施能力的核心指標。但Agent的出現，正在改變這套邏輯。與傳統聊天機器人不同，Agent並不只是完成一次問答，而是需要持續執行任務。它需要調用工具、訪問數據庫、瀏覽網頁、管理記憶系統，甚至不斷創建和調度新的子Agent協同完成工作。當AI開始從生成答案轉向執行任務，一個長期被GPU光環掩蓋的角色重新回到了舞臺中央——CPU。Computex 2026臺北國際電腦展期間，英特爾發佈了首款基於Intel 18A工藝打造的數據中心處理器——至強6+（代號Clearwater Forest）。這款處理器擁有288個能效核（E-Core），還擁有一個非常吸引人的特性，在實際測試中，一顆288核至強6+可以輕鬆同時部署400至500個Agent。這背後折射出的，並不僅僅是一顆新CPU的發佈，而是Agent時代AI基礎設施底層邏輯的一次深刻變化。一顆CPU能同時運行500個Agent的關鍵是什麼？如果說ChatGPT時代的AI更像一個超級搜索框，那麼Agent時代的AI更像一個數字員工。一個典型Agent任務往往包含多個環節：用戶提出需求，Agent拆解任務，調用多個工具，查詢知識庫，啟動多個子Agent協同處理，最終彙總結果並返回。整個過程中，真正負責生成內容的依然是GPU，但大量調度、編排、路由、資源管理以及任務協調工作，則落在了CPU身上。英特爾數據中心集團技術產品總監楊錦文表示："隨著生成式AI帶來的發展，CPU和GPU的配比正在從傳統的1:8逐漸變成1:4、1:2，甚至1:1的場景，在部分強化學習場景中甚至出現了反轉。"1:1，甚至CPU比GPU更多——這個比例放在三年前幾乎不可想象。而這，恰恰是至強6+發佈的背景。對於Agent來說，CPU面臨兩個全新的挑戰。第一個挑戰是密度。企業希望在同樣的機架空間內運行更多Agent，隨著Agent數量增加，CPU需要同時管理大量任務調度和資源分配。第二個挑戰是響應速度。Agent運行過程中會頻繁創建、啟動和銷燬任務實例，如果啟動速度過慢，即便擁有足夠算力，也難以滿足實際業務需求。英特爾SoC架構專家曾義說，"要滿足Agent頻繁創建、啟動和銷燬任務實例的特性，希望在同一顆CPU上部署更高密度的工作負載。這也是為什麼至強6+是首款單SoC支持288個核的架構，這能夠幫助我們以非常好的TCO（總體擁有成本）去滿足Agent上的需求。"為了實現這種密度，英特爾在至強6+上採用了英特爾Foveros Direct 3D的三維封裝技術。具體而言，是將基於Intel 18A工藝製造的計算Tile，垂直堆疊在基於Intel 3工藝的底層Tile之上，再通過EMIB封裝技術完成各模塊之間的互聯。整顆處理器由4個基於18A工藝的計算芯片構成，每個芯片包含24個核心，堆疊在3顆基底芯片上方，基底芯片則集成了片上網狀互聯架構、末級緩存和內存子系統——一共29個芯片組件，才構成了這顆288核的處理器。內存規格同樣針對Agent以及傳統負載的需求進行了強化：12通道DDR5，運行速率最高8000 MT/s，末級緩存高達576MB，比上一代產品提升超過5倍。96條PCIe Gen 5通道則保證了跨設備的數據流動不會成為瓶頸。清楚至強6+的特性後，再來看至強6+能夠用1顆芯片運行數百個Agent的原因。楊錦文說，具體能運行多少個Agent，取決於具體的配置。雲服務中常見配置，通常是"2個核心配4G內存"或"1個核心配2G內存"。按照這個標準，288核架構下同時部署400至500個Agent"已經是很常規的操作"。他也補充："上限取決於客戶自身的訴求，以及要在什麼樣的SLA（服務等級協議）的服務協議下提供Agent服務。"換句話說，Agent時代對CPU的新要求，不再只是跑得快，而是能同時管理更多任務。在性能提升方面，至強6+對比上一代產品整體性能最高提升2.26倍，每瓦性能最高提升1.55倍。與同類競爭產品相比，每線程性能和每線程每瓦性能均高出最多30%，後者是虛擬化數據中心工作負載最核心的評估維度。對於使用第二代至強的客戶，升級至強6+的理由更加直接，服務器整合比可以達到9:1，物理空間減少近80%，能源節省73%。德意志電信旗下的T-Systems已將至強6+定位為其T-Cloud私有智能體AI基礎設施的關鍵組件，理由正是海量內核數量與出色的能效。Agent時代，網絡成為瓶頸過去幾年，AI產業形成了一種慣性思維：GPU決定一切。但Agent正在讓行業意識到一個新的現實——系統能力開始比單芯片能力更重要。一個Agent完成任務的完整流程是：CPU負責調度，GPU負責推理，網絡負責數據交換，內存負責上下文保存，軟件負責資源編排。任何一個環節出現瓶頸，都會影響最終的體驗。英特爾執行副總裁兼數據中心事業部總經理Kevork Kechichian指出："AI的擴展之道，不在於各部件的疊加，而在於系統的協同運作。隨著AI走向智能體時代，編排、併發與數據流動成為了新的限制因素。"這也是為什麼英特爾在發佈至強6+的同時，還發布了全新的以太網E835控制器及網絡適配器。因為當數百個Agent同時工作時，網絡已經成為影響效率的重要因素。長期以來，網卡在AI基礎設施中的存在感並不高。但當Agent開始頻繁調用外部工具和服務，節點之間的東西向流量迅速增長，網絡的重要性開始上升。英特爾技術專家Kevin Cai告訴雷峰網："AI的發展正在對網絡帶寬、時延以及能效提出全新要求，網絡已經成為現代AI基礎設施中的關鍵組成部分。"E835支持最高200GbE吞吐量，覆蓋2×25GbE、4×25GbE、2×100GbE、1×200GbE等多種端口配置，可通過英特爾以太網端口配置工具（EPCT）靈活定製。完成首次驗證後，僅需兩步即可重新配置端口數量和速率。RDMA（RoCEv2/iWARP）支持可繞過CPU直接在服務器之間傳輸數據，動態設備個性化（DDP）技術則進一步降低了數據包處理開銷。E835真正的差異化在功耗上。英特爾給出的數據是，在滿載200G線速運行時，E835的功耗比同類主要競爭對手低28%至47%，最終實現1.4至1.9倍的每瓦性能優勢。對於正在把越來越多算力集中進機架的數據中心來說，同樣的散熱和供電預算意味著可以部署更高密度的網絡。在電信場景中，E835還有一個容易被忽略的細節，配合至強6+的高精度時鐘提取功能，可以在5G專網中以約10納秒的精度實現時鐘同步，這個能力過去需要專門的昂貴設備才能實現。愛立信在實際運營商部署中測試至強6+的數據也已印證，在相同核心數下，性能提升30%，每瓦性能提升60%以上，機架功耗下降38%。E835還提供超過10年的產品生命週期，這對需要長期穩定運營的電信和企業客戶來說，是降低長期TCO的重要保障。為Agent而生的480GB顯存GPU如果說至強6+解決的是Agent的調度問題，那麼英特爾下一代數據中心GPU——代號Crescent Island，則瞄準了另一個瓶頸：內存。在Agent時代，內存正在變成核心競爭力。因為Agent不僅需要推理，還需要長期記憶、上下文保存、多模型協同以及頻繁切換不同任務。越來越長的上下文窗口以及不斷增長的KV Cache需求，使得顯存容量的重要性迅速提升。Crescent Island基於Xe 3P架構，最大的差異化不是算力，而是高達480GB的超大內存容量。英特爾選擇了LPDDR5x顯存方案，相比HBM功耗更低，成本更具競爭力，同時將整卡功耗控制在350W，可直接部署在現有風冷數據中心中，無需液冷改造。Crescent Island是為Agentic AI而生。480GB意味著什麼？楊錦文解釋，以DeepSeek-V4模型的參數量為例，在FP8量化精度下，僅需4張Crescent Island就可以支持這個模型的完整部署。更大的內存容量還意味著可以同時在顯存中保留多個模型，Agent在不同任務之間切換時無需頻繁加載，響應速度會快得多。但如果想獲得更理想的運行效果，確實還需要更多的顯存容量來支撐。此外，Crescent Island支持從原生FP4/MXFP4到FP64的廣泛數據類型，PCIe兼容的外形規格進一步降低了擴展門檻。目前已有超過20家OEM和ODM廠商正針對該產品進行開發，更多細節將在未來幾個月陸續披露。英特爾技術專家指出，Crescent Island GPU走是一條極高性價比的路線，非常適合端側或者是企業的典型場景，比如說一機8卡或者是一機16卡的部署。在軟件支持方面，Crescent Island GPU將提供開箱即用的廣泛模型軟件支持，圍繞四個原則構建統一的 Xe 軟件棧，即開放、規模化性能、優秀的用戶體驗以及支持異構基礎設施。從CPU公司，到AI系統公司從一個整體的視角看英特爾至強6+的發佈，會發現一個有趣的現象，英特爾發佈的並不是一款產品，而是一套體系——CPU、GPU、網絡、軟件生態同時出現，全部圍繞同一個主題展開。這背後反映出英特爾數據中心戰略的一次深層轉變。過去的數據中心競爭，本質上是單芯片競爭。而Agent時代正在讓這種邊界消失，因為Agent運行需要的是完整系統，CPU負責控制平面，GPU負責推理平面，網絡負責數據流動，軟件負責資源編排，任何單一環節都無法獨立完成任務。軟件生態是英特爾在這場競爭中的另一張牌。其統一Xe軟件棧已支持PyTorch、vLLM、SGLang等主流框架，堅持上游優先策略，不構建封閉生態，而是把對英特爾硬件的支持直接貢獻到開源框架的上游代碼裡，每款新硬件發佈都提供Day 0的即刻支持。未來開發者可以在銳炫Pro平臺上完成開發，再無縫部署到Crescent Island上，前向和後向兼容性都有保障。有些技術積累，只有到了Agent時代才被重新發現價值。曾義提到了一個例子，英特爾多年前推出的IAA（Intel In-Memory Analytics Accelerator），可以在內存層做壓縮和解壓縮加速。當時客戶興趣有限，但Agent需要頻繁快速地換入換出上下文狀態，IAA的價值突然變得清晰。國內幾家大的頭部客戶在與我們進行討論和演進的時候，這個項目的進展速度也非常快。CXL內存擴展同樣如此，通過CXL在多個CPU之間共享大容量內存池，正在成為Agent大規模部署時的重要基礎設施選項。在英特爾面向生成式AI的產品組合，CPU依舊是值得關注的重點。雷峰網瞭解到，英特爾下一代至強CPU代號Diamond Rapids，將基於Intel 18A P工藝，採用16通道內存配置，提供更多PCIe通道，預計2027年發佈。至強6+和Diamond Rapids之間保持完整的Socket兼容性，客戶不需要為了升級重構整套基礎設施。過去幾年，AI行業最大的敘事是GPU統治世界。但Agent的出現，正在讓產業重新審視CPU的價值。對於英特爾而言，至強6+最重要的意義或許並不只是288個核心，也不只是Intel 18A首次進入數據中心市場。更重要的是，它正在證明一件事，當AI從生成答案走向執行任務，CPU依然是整個AI基礎設施不可替代的控制平面。而隨著Agent規模持續擴大，CPU、GPU、網絡與軟件共同構成的系統能力，或許才是下一階段AI競爭真正的核心。

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析