高考志願填報，成了檢驗AI Agent的一場大考

2026年6月30日 11:00

重點摘要

站內 AI 整理稿

智東西作者 | 畢偉豪編輯｜漠影智東西6月30日報道，近期，高考出分後，志願填報無疑是全國1290萬考生家庭的頭等大事，AI輔助志願填報也正在成為越來越多家庭的選擇。近兩年，AI Agent（智能體）快速崛起，以其強大的工具調用能力以及複雜任務處理能力，迅速成為很多人日常生活和工作中不可或缺的一部分。當AI Agent從聊天工具進入真實決策場景，應該用什麼標準評價它？高考志願填報就是一個高壓測試場。過去評價AI，很多時候看它答得準不準；但進入高考志願這類真實決策場景後，評價標準變了：它能否理解複雜規則，能否調用權威數據，能否記住用戶條件，能否在連續追問中不斷縮小範圍，並最終給出可參考的判斷。近日，百度搭子DuMate上線了其首個面向高考志願場景的信息助手Skill，根據志願填報場景專門設計，能力覆蓋規則理解、數據分析以及綜合建議等方面，為考生提供可以參考的決策輔助。一、從搜索到判斷：百度AI如何把分散高考信息組織起來傳統志願填報的常態是，考生和家長在十幾個網頁中來回切換，去查詢包括一分一段，高校招生章程，院校排名、就業情況等信息，甚至還得去各大社交平臺搜校友評價。信息，網絡上大部分都有，但它們分散在不同的地方，權威性、可靠性也各不相同。面對大量複雜、分散、難辨真偽的信息，百度搭建了一條從信息蒐集到處理的搜索鏈，來提高輸出結果的可靠性。在信息蒐集方面，DuMate高考信息助手Skill採取了多源搜索加交叉驗證的機制，啟用該Skill後，DuMate會同時從多個權威信源調取數據，包括各省教育考試院官網、陽光高考平臺、高校招生網，以及百度搜索結果頂部的結構化阿拉丁卡片。阿拉丁卡片是百度搜索推出的垂直結構化信息展示產品‌，用信息聚合的方式滿足用戶的特定搜索需求。此次，百度專門為高考場景定製了新的阿拉丁卡片，這張卡片包含招生政策、熱門院校、專業查詢、高考查分、一分一段表等多個功能入口，覆蓋從查分到報志願階段的幾乎所有搜索需求。 DuMate抓取這些數據後，並不是簡單彙總然後反饋，它會將這些數據和對應的權威官網進行交叉校驗，出現不一致的數據時，以權威網站為準以保證準確性。在幻覺方面，DuMate在查詢和處理所有涉及外部事實的數據時，默認進行實時搜索，模型本身的記憶僅用來做理解用戶意圖、複用考生畫像等不涉及外部事實的事情，不會基於模型記憶做出院校推薦、專業排名等判斷。除了信息全面、數據精準這些必備能力，對於高考志願填報這樣一個個體差異極大的場景，高考信息助手Skill能做的不僅僅是將信息查回來，其重點在於可以讓DuMate所查到的信息、處理的過程、產出的決策報告，都圍繞考生本人的個性化需求來推進，把志願填報的相關信息以考生個人為中心組織起來。比如在下方的測試案例中，智東西在DuMate中提出了相對比較複雜的需求，包括分數、選科方向、擅長科目、家庭情況以及未來規劃等，DuMate在確認需求之後，從一開始就按照我們提出的個性化需求來搜索信息，根據一線城市就業、強勢學科等情況進行篩選，每一步的結果都基於用戶畫像。在高考這個真實的決策場景中，百度的搜索和數據基礎設施，是DuMate處理複雜任務的底座，但重點不是“信息搜得多”，而是“把分散信息轉化為可輔助判斷的信息”，高考信息助手Skill並不是簡單的信息收集，是根據具體問題進行具體分析，提供可參考方案的決策輔助。二、不僅僅是一問一答一張表，這個Skill5步走完整個決策鏈路有人會問，這個Skill產出的實際效果看起來，就是一個比較長的回答，和一問一答的對話有什麼區別呢？關於這一點，要從DuMate的能力以及Skill本身的設計邏輯上去分析。高考信息助手Skill，實際上是DuMate能力的延伸、集中和強化，一切輸出結果的質量都依賴於其本身的Agent能力。從表面看上去，DuMate的輸出好像只是一個結構化的文字方案，但從任務識別、畫像採集到呈現結果，每一步都是DuMate在處理複雜任務時能力的體現。智東西仔細查看了DuMate高考信息助手Skill的設計結構，發現它的整體邏輯能夠非常清晰地展示DuMate在面對複雜任務時，所表現出的Agent能力。高考信息助手Skill把一次完整的志願填報輔助流程拆成了五個步驟：先分類、再採集畫像、然後調取數據、最後分析輸出，以及貫穿全程的記憶複用。這五個步驟本質上體現了Agent在處理複雜任務時所需要具備的幾項能力：任務識別、用戶畫像、工具調用、數據驗證、風險提示以及記憶複用。 DuMate在調用高考信息助手Skill處理任務時，第一步是分類。Skill內部設計了一個路由，用來判斷用戶提出的問題屬於哪個分類，比如是志願填報，還是院校對比，Skill會根據不同的分類進行模板的選擇以及變化處理方式。第二步是畫像採集。畫像有三個來源，除了用戶所輸入的提示詞包含的信息，Skill還內置了一套畫像記憶系統，可以從用戶的歷史對話中讀取已知信息補充畫像，比如當我打開一個新任務，並隱藏掉我的文理科方向時，DuMate從歷史對話記錄中找到了我是歷史類考生這一點自動補充到了畫像中。此外，DuMate還會根據當前問題的類型以及問題中的信息，去判斷還缺什麼關鍵字段，然後進行追問。比如用戶問志願填報時，DuMate就需要包括省份、年份、科類、分數、位次、批次、偏好限制等信息的完整畫像，如果僅問院校信息則不需要畫像。追問的實際效果是，用戶不會感到自己在填表。傳統查詢類產品的做法是一上來就讓你選省份、選科類、輸入分數，填完一堆字段才出結果。而DuMate把畫像採集藏在對話裡：你直接提問，它發現缺什麼再問什麼，一次性追問完，不反覆打斷。問完之後，用戶畫像採集也就完成了，後面的數據抓取、分析輸出等步驟全圍繞這個畫像展開。這一步也可以體現出DuMate在跨輪次、跨會話執行復雜任務時的穩定性，通過三個來源的用戶畫像採集，保證複雜任務執行過程中不偏離記憶。第三步是多源數據調用和交叉驗證，也就是前面所說的蒐集數據的方法，這一步能體現DuMate在工具調用和數據驗證方向上的Agent能力。 DuMate會調用三種抓取工具來蒐集數據，根據Skill文件，DuMate用websearch來找抓取數據的入口，用browser-use來抓取需要交互或反爬的站點，用webfetch來直接獲取已知URL的網站，如果用戶的問題是某所大學或者某個專業這種高頻出現的結構化信息，DuMate會直接啟用browser-use來優先抓取阿拉丁卡片中的內容。同時，高考信息助手Skill嚴格規定了禁止數據捏造，凡是數據都要有來源，即使是百度搜索提供的阿拉丁卡片也要和權威網站的數據進行對比驗證，完成之後，用戶拿到的是經過比對、交叉驗證的結構化信息。第四步是分析輸出。這裡有一個明顯的產品取捨：DuMate不做唯一正確答案。它給出的是衝穩保梯度排序、卡線風險評估、不同院校和專業之間的條件化對比。同時，DuMate也不是要去做一個大而全的輸出，就像Skill文件中寫的，什麼都說等於什麼都沒說，DuMate會在提供多重建議以及風險提示的同時，根據用戶畫像給出最相關的幾條方案。最後一步是記憶，這一步不是一個單獨的流程，是貫穿整個Skill運轉的底層能力，這個能力來自於DuMate本身，Skill裡有這樣一句話： “把採集到的考生畫像寫入記憶，後續對話讀取複用，做到跨輪次、跨會話不重複追問。當用戶更新信息（如修正分數）時同步更新記憶。” 在用戶已提供的信息範圍內，DuMate會將與任務相關的關鍵信息沉澱為後續可複用的畫像線索，減少重複追問。這一點更加考驗DuMate在複雜任務執行中，跨會話記憶保持、實時記憶更新的綜合能力。據官方介紹，DuMate作為百度首推的通用智能體，具備類似“工作反思”的持續進化能力，會對每天的任務執行情況進行總結與反思、在持續協作中學習用戶的工作習慣、任務偏好和表達方式等並寫入記憶，在高考志願填報這個場景下，其持續進化的能力被明顯放大了。整個志願填報流程走下來，還有一點在Skill中寫的非常清楚，那就是責任劃分，百度始終認為AI高考志願填報，永遠只能是輔助決策，真正的最終決策需要人來做。通過高考信息助手Skill的文件能看到，裡面不止一次強調，DuMate會基於蒐集到的信息進行綜合分析，並結合用戶的具體條件給出區間化、風險提示式的參考，不會替用戶武斷下結論。三、實時更新記憶、個性化定製分析，實測讓DuMate梳理志願方案講完Skill的底層邏輯，我們上手測了幾個案例，不追求面面俱到，僅挑選了幾個能體現Agent核心能力的角度。啟用這個Skill也很簡單，只需要在對話框中輸入斜槓命令，然後選擇DuMate高考信息助手即可。首先，讓我們看一下前面所提到的案例裡，DuMate在志願填報中的基礎表現，下面這張圖就是DuMate調用高考信息助手Skill所輸出的部分內容：開頭先給出了志願填報的結論，然後表格按衝/穩/保三檔排列，同時給出了具體專業的建議，能看到DuMate調用工具從多個渠道搜尋了志願填報所需要的信息後，嚴格按照我們所提供的個性化需求進行分析，輸出的結論相對比較合理，給出的建議豐富且中肯。隨後我們新開了一個任務，告訴DuMate，自己對計算機和人工智能感興趣，平時喜歡看科技類內容，問它有什麼推薦的學習方向。輸入提示詞：我對計算機和人工智能比較感興趣，平時喜歡看科技類內容，有什麼推薦的學習建議嗎？ DuMate給出了一些學習建議，雖然告訴我歷史類考生不能報名計算機專業，但和我說未來可以轉修或者輔修這個專業，同時讓我不要把“歷史類不能直接報計算機”當作限制，要把它當作走差異化路徑的起點，做一個複合型人才。接著我輸入下面的提示詞，讓DuMate給我做一份學習計劃：未來也不一定轉修這個專業，複合人才這個思路比較好，幫我做一個具體的學習方案吧。 DuMate隨即輸出了一份內容詳實的學習計劃，還直接以.docx格式輸出給我，方案中可以看到我的畫像被放置在了最前面，作為一切計劃的起點。這兩步雖然看起來和志願填報無關，但目的是在測試DuMate到底能不能根據日常對話實時調整記憶並且複用，這項能力對於任務複雜性Agent來說非常關鍵。於是,我們新開對話並輸入以下提示詞：雖然我是文科生，但我想進入人工智能行業就業，幫我推薦一下院校和專業。提示詞非常簡單，只有少數關於志願填報的信息，甚至連任務類型描述的都比較模糊。DuMate加載了高考信息助手Skill，隨後進行了用戶畫像的讀取、判斷任務類型以及數據蒐集等步驟，能看到DuMate準確讀取了畫像，然後精準判斷了任務類型，進入到調用工具抓取數據的階段。等待片刻後，DuMate輸出了一份“文科+AI”的志願填報方案，方案結合畫像，從專業和院校兩個維度給出了具體的建議，在方案開頭提供了最新開設的人工智能交叉專業，並且建議我優先選“計算語言學”或“商業人工智能”這類2026年新增的交叉專業，並結合政策方向、學科屬性和招生條件做了參考分析。實際體驗下來，能感受到的是，DuMate在處理複雜任務時，能夠在跨會話中很好地保持記憶複用，同時在最新專業等信息的抓取上也非常靈敏。同時，DuMate可以清晰理解用戶需求並判斷任務類型，進而輸出準確回覆。通過高考志願填報這個場景，可以看到DuMate能在廣泛信息蒐集的同時，通過交叉驗證、權威性排序等方法，讓生成的結果更加可靠，從中能體現出DuMate依託百度生態以及模型水平充分釋放的Agent能力。結語；不止高考，百度想做的是通用每年1290萬考生，對應的是一個信息密度高、規則複雜、個人差異極大的決策場景。AI志願填報產品這兩年越出越多，但打法高度趨同：比數據全、比更新迭代頻率快、比界面好看。而百度坐擁最大的中文搜索引擎，擁有進入高考行業最堅實的數據基礎，但百度想要的不止這些。搜索只是底座，更關鍵的是百度能否把搜索、權威數據、結構化信息、模型理解和工具調用能力，重新組織成一個可持續執行任務的Agent流程。百度在芯雲模體上的全棧自研，為DuMate提供了豐富的AI生態基礎，而DuMate的搜索Skill能夠把其中各項能力串成可用的任務鏈，這也正是百度在通用Agent領域的優勢所在。 5月的Create大會上，百度智能雲公佈了他們對Agent Infra的能力提升，其中Harness Engineering（駕馭工程）的全面升級，讓模型、工具、記憶、Skills、MCP和Runtime協同起來，不再是各自為戰。此外，百度基於Token Factory（詞元工廠），提升了模型調用和推理效率，顯著提高了單位Token的智能化水平，從而應對各式各樣的場景需求。從DuMate已內置的系統技能來看，它正在連接百度搜索、百度地圖、百度短視頻等生態能力。高考Skill只是其中一個樣本，背後真正值得觀察的是：百度能否把這些原本分散在不同產品裡的信息、服務和工具能力，通過AI Agent重新封裝成面向個人複雜任務的執行鏈路。這也是DuMate高考Skill對百度AI的意義：它展示的不是單一工具能力，而是百度AI從信息入口走向任務入口、從能力展示走向結果交付的一種路徑。高考只是開始。當AI Agent進入更多真實決策場景，它最終接受考驗的，不只是模型能力，更是整個Agent執行鏈路的可靠性。

原始來源：智東西 ↗

查看原始來源

36氪AI Agent

智能體互聯國標發佈:為什麼統一了接口,依然可能連不通物理世界?

這篇消息聚焦「智能體互聯國標發佈:為什麼統一了接口,依然可能連不通物理世界?」。原始導語提到：拆解“智能體破壁”背後的底層邏輯從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

38 分鐘前閱讀分析

Hugging Face BlogAI Agent

ScarfBench：針對企業Java框架遷移的AI代理效能基準評測

IBM 研究團隊推出 ScarfBench，這是一個針對企業 Java 框架遷移的 AI 代理效能基準評測。該基準專注於 Spring、Jakarta EE 和 Quarkus 三大框架間的遷移任務，要求 AI 代理不僅要生成程式碼，還需確保應用程式能成功建置、部署並通過行為驗證。ScarfBench 包含 34 個應用程式、204 個遷移任務及超過 1300 個專家測試，提供更貼近真實情境的現代化品質評估。

47 分鐘前閱讀分析

36氪AI Agent

從Claude Code 負責人最新訪談，看懂正在消失的工程師崗位

這篇消息聚焦「從Claude Code 負責人最新訪談，看懂正在消失的工程師崗位」。原始導語提到：消失的手寫代碼，失控的軟件組織。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 小時前閱讀分析

雷峰網AI Agent

從WorldArena榜首到1500+模型落地：跨維智能證明世界模型不是Demo是生意

AI科技評論獲悉，跨維智能近日已完成B輪融資，融資金額10億元人民幣，投後估值超過百億，成功躋身具身智能獨角獸行列，踏入IPO的門檻。這輪融資的投資方橫跨幾類資本：國家級母基金、頭部國資創投、實體龍頭產業資本和地方科創平臺。深創投、貴陽數字經濟基金是連續兩輪下注；前海母基金、藍思科技、工銀資本、恆健資產、諸瑞資本這輪新進入；南山戰新投、成都科創投、四川院士基金等老股東繼續追加。新老股東一起加碼，背後是資本市場對跨維技術路線和落地能力的某種共識。至於錢往哪花，跨維的答案是幾件事：底層世界模型算法迭代、物理引擎升級、數據基礎設施建設、人形機器人能力完善，以及真實場景落地——把技術、產品和商業閉環再往前推一步。百億估值從來不是憑空出現的。一家成立僅四年的公司憑什麼走到這個位置？拆開來看，撐起估值的是：一條被持續驗證的技術路線、一個跑通了的商業閉環、一種以終為始的終局戰略。物理AI技術全棧自研，幾經行業驗證2021年成立時，跨維智能就把方向定在物理AI與世界模型上，是國內最早一批做物理AI全棧自研的公司。它選的路徑是"世界模型 + 物理仿真 + 真機落地"，這條路被它認為是行業終局。值得注意的是，跨維多項核心技術節點的佈局進度，排在英偉達、DeepMind等海外巨頭之前，而過去幾年的行業走勢，也一直在驗證這條路線。世界模型，是這條路線的核心，也是當下全球AI頭部力量競逐的方向。英偉達、谷歌等公司持續圍繞物理AI、機器人仿真、環境推演、合成數據生成和世界基礎模型進行前沿佈局，把人工智能從語言理解、視覺識別，進一步推向物理世界建模、動作因果預測和智能體交互決策。對具身智能產業而言，世界模型早已不只是"生成未來畫面"的視覺模型，而是支撐機器人訓練、評估、規劃與泛化的關鍵技術底座。跨維選這條道，等於把自己擺到了和全球頭部同臺競技的位置。一個近期的註腳，來自全球具身世界模型權威評測World

3 小時前閱讀分析