智東西生成式AI

從高考數學滿分到AI輔助填志願,國產大模型走到哪一步了?

2026年6月17日 09:48

重點摘要

智東西 作者 | 三北 編輯 | 漠影 2026年高考落下帷幕,但圍繞高考的“AI時刻”才剛剛開始。 從考前備考到考後志願填報,今年高考季,AI幾乎出現在每一個關鍵環節。越來越多考生把大模型當成學習助手、答疑老師和志願顧問,高考也成為檢驗AI能力最集中、最真實的場景之一。 變化背後,隨著AI Agent(智能體)能力快速成熟,AI正在從“回答問題”走向“完成任務”,從單純提供信息走向輔助決策。 而高考,恰好構成了一條完整的觀察主線。 在考試階段,AI需要展現知識儲備、邏輯推理和語言表達能力;在志願填報階段,AI則需要整合海量院校數據、理解個人偏好,並給出個性化決策建議。前者考驗模型“會不會做題”,後者考驗模型“能不能幫人解決問題”。 那麼,當大模型開始參與高考全流程,它們的能力究竟走到了哪一步? 為了回答這個問題,智東西實測了元寶等大模型助手在2026年全國卷Ⅰ語文、數學和英語三科的表現,並結合專家點評與多模型橫向對比結果,對AI的高考表現進行了全面覆盤。同時,我們也進一步體驗了AI Agent在志願填報場景中的實際能力,觀察大模型是否正在從“會做題”邁向“會決策”。 答案或許比想象中更值得關注:高考考場上,國產大模型已經開始逼近全球第一梯隊;而在考場之外,它們正在嘗試完成更難的一件事,那就是幫助人做人生選擇。 一、2026高考AI實測:作文寫得催淚,數學拿下150滿分 首先來看看AI在高考測試中的表現,元寶在數學測試中拿到150分滿分,語文和英語也都逼近了滿分水平。 可以說,大模型已經開始全面逼近人類“優等生”的水平,在數學推理、英語閱讀等標準化任務上,部分頭部模型甚至開始接近滿分表現,不過在複雜證明、細節規範性和長鏈推理穩定性上仍能看到一些能力層次的區分。 而在作文、續寫等開放性任務中,AI已經能夠寫出流暢且富有情感的文本,但距離真正的人類創造力與個體經驗表達,依然存在

站內 AI 整理稿

智東西 作者 | 三北 編輯 | 漠影 2026年高考落下帷幕,但圍繞高考的“AI時刻”才剛剛開始。 從考前備考到考後志願填報,今年高考季,AI幾乎出現在每一個關鍵環節。越來越多考生把大模型當成學習助手、答疑老師和志願顧問,高考也成為檢驗AI能力最集中、最真實的場景之一。 變化背後,隨著AI Agent(智能體)能力快速成熟,AI正在從“回答問題”走向“完成任務”,從單純提供信息走向輔助決策。 而高考,恰好構成了一條完整的觀察主線。 在考試階段,AI需要展現知識儲備、邏輯推理和語言表達能力;在志願填報階段,AI則需要整合海量院校數據、理解個人偏好,並給出個性化決策建議。前者考驗模型“會不會做題”,後者考驗模型“能不能幫人解決問題”。 那麼,當大模型開始參與高考全流程,它們的能力究竟走到了哪一步? 為了回答這個問題,智東西實測了元寶等大模型助手在2026年全國卷Ⅰ語文、數學和英語三科的表現,並結合專家點評與多模型橫向對比結果,對AI的高考表現進行了全面覆盤。同時,我們也進一步體驗了AI Agent在志願填報場景中的實際能力,觀察大模型是否正在從“會做題”邁向“會決策”。 答案或許比想象中更值得關注:高考考場上,國產大模型已經開始逼近全球第一梯隊;而在考場之外,它們正在嘗試完成更難的一件事,那就是幫助人做人生選擇。 一、2026高考AI實測:作文寫得催淚,數學拿下150滿分 首先來看看AI在高考測試中的表現,元寶在數學測試中拿到150分滿分,語文和英語也都逼近了滿分水平。 可以說,大模型已經開始全面逼近人類“優等生”的水平,在數學推理、英語閱讀等標準化任務上,部分頭部模型甚至開始接近滿分表現,不過在複雜證明、細節規範性和長鏈推理穩定性上仍能看到一些能力層次的區分。 而在作文、續寫等開放性任務中,AI已經能夠寫出流暢且富有情感的文本,但距離真正的人類創造力與個體經驗表達,依然存在值得觀察的空間。 1、寫作感情細膩:從“審題準”到“寫哭人” AI正在逼近語文高分區 從測試結果來看,元寶在語文客觀題與標準化主觀題上的能力已經相當成熟。 語文試卷總分150分,元寶得142分。其在閱讀理解、文言文、詩歌鑑賞和語言運用等板塊表現穩定,主要失分仍集中在作文等開放性表達題目上。 ▲元寶在2026年全國新課標語文1卷測試中的得分分佈情況 我們來著重看下作文情況,元寶的作文以《平凡:從“無聲”到“有聲”》為題,文章圍繞少年到青年對 “平凡” 一詞的認知轉變展開行文,記敘了初中階段排斥平凡、後來讀懂平凡人亦有不凡價值的心理變化,結尾昇華不否定進取、只求內心沉穩。 ▲元寶生成的答案 申怡老師是前人大附中語文名師、曾任高考作文閱卷組組長,擁有近30年一線教學經驗,她評價這篇作文“風格踏實、行文務實”。她認為這篇作文文風紮實規範,貼合考場評分標準:文章審題準、結構順,考生以自身認知轉變敘事,寫作框架穩妥;但新意不足,需以真情實感為底色,融入個人對生命、時代的獨立思考,跳出模板套路,強化真情與文字深度。 這符合大家對一眾AI寫作能力的固有印象:擅長套用考場模板搭建規整文章、堆砌通用優美語句,但缺少真實私人經歷與獨一無二的自主思辨。 不過,元寶的另一篇類似主題作文打破循規蹈矩的桎梏,被申怡老師評價為“眼前一亮”,像人一樣帶有了“獨特觀察和情感體驗”。這篇以《那個叫“普通”的詞,終於學會讀它》為題的作文,文章層層遞進拆解 “普通” 的內涵:年少時將普通視作失敗,青春期將普通視作不甘,長大後讀懂普通即是來路歸途。認知層層迭代、通透深刻,更暗藏深層思考。 ▲元寶生成的答案 申怡老師評價這篇作文稱:“這是一篇讓人眼前一亮、心生暖意、讀後舒展從容的優質佳作,整體水準放在高考裡大概率能衝滿分或接近滿分……全文細節真摯動人,孩童為掙脫平庸奮力奔忙的執念、父母樸素深沉的溫情、時代洪流中的個人迷茫與內心篤定,皆源自真實生活,細膩共情,讓文字擁有直擊人心的可信力量。” 這表明元寶能突破模板寫作侷限,構建遞進式成長思辨,生成飽含生活化細節、獨特私人情感的文字,擺脫標準化套路。 從審題準到寫哭人,AI正在逼近語文高分區。 2、難上熱搜的數學:拿下150滿分,壓軸題拉開差距 今年數學高考被很多考生反饋稱很難,一度因此登上微博熱搜,AI應對如何?數學考驗AI的邏輯推理與符號計算能力,對AI的抽象思維與形式化推理提出了更高挑戰。 從實測結果來看,元寶在2026年全國新課標數學1卷和2卷都拿下150分成績。如下圖所示,以1卷為例,為了深入瞭解難題分佈,我們對比了其他幾家匿名頭部模型成績,作為參照系。 ▲2026年全國新課標數學1卷AI考試情況 在卷1中,多家國產模型主要失分集中在第9題、第11題、第14題以及壓軸第19題。這些題目共同特點是計算量大、推理鏈長、分類討論複雜,極容易誘發模型出現循環論證、公式錯誤、邊界條件遺漏等問題。 數學和語文考試最大的差異在於,數學題目有標準答案但解法不唯一,因此分數一樣≠水平一樣。元寶的150分含金量如何? 我們來看幾道具有代表性的題目: 第7題(單選):本題給出了12行塔數a1=1,a2=a3=3, a4=a5=5,a6,…,a12 為首項7、公差2的等差數列。將這12個數分成6組(每組2個),使各組之和構成公差d>0的6項等差數列,求d。選項:A. 2 B. 4 C. 6 D. 8。這一題主要考察等差數列求和公式。 ▲題幹(網絡回憶版) 元寶沒有完整推導證明過程,而是採用高考考生常用的應試技巧,代入選項驗證,展現出成熟高效的選擇題速解思路。 具體來看,元寶的做法是列出12個數、求和108、建立2u1+5d=36後,結合給出的四個選項對d=2,4,6,8 逐項代入檢驗:d=4時給出正確構造 (3,5),(1,11),(3,13),(5,15),(7,17),(9,19);d=6 時u1=3<4矛盾、d=8時u1=−2<0,排除均正確。 ▲元寶生成的答案 11題(多選題):圓C1:(x+1)2+y2=1、C2:(x−1)2+y2=1、C3:x2+(y−3)2=1,直線l:y=kx+b與三圓均有兩個交點,弦長分別為s1,s2,s3。讓考生判斷下面四個選項哪個正確。 ▲題幹(網絡回憶版) 元寶的思路全對、計算過硬,但整個過程也存在一些行文推理措辭上不夠嚴謹,但不影響結論正確。 具體來看,A選項的驗證上,元寶選取了k等於三分之根號三帶入計算,算出三個正確的B區間,反例選取正確,但“前兩個範圍無公共交集”指錯對象,真正為空的是該交集與第三個區間的交,論述有一些小瑕疵,但結論正確,A排除; B選項的驗證上,元寶採用了kb=0分類、驗證合法性,結論恰有3條,過程無誤,得出正確答案,B正確; C選項的驗證上,元寶解方程找出第4、5條直線,清楚具體地證明了“多於3條線”,得出正確答案,C正確。但“共5條”的說法略欠嚴謹,實際滿足條件的直線不止 5 條(例如水平族中還存在 y=b0,b0≈0.745 的一條),應表述為“至少5 條”。但元寶的推導足以證明滿足條件的直線數量超過3條,支撐選項成立,不影響最終答題判斷。 D選項的驗證上,推導與數值全部正確,D正確。小瑕疵在於:寫t≥0,但t=0對應d3=1(相切,不滿足“兩個交點”),應為 t>0;且“唯一極值點即最大值”未交代G′的符號變化,有一些小跳步,不過單選題考試,小跳步可以接受。 ▲元寶生成的答案 14題(填空題):存在下圖題幹中所示的數列使對任意n∈N∗,滿足圖中所示的幾個條件,求q的最大值。網友回憶版題面“設實數a滿足”應為“設實數q滿足”之筆誤。 ▲題幹(網絡回憶版) 這是一道典型的數列壓軸填空題,涉及數列前n項和與等比數列性質綜合考察。元寶的解答過程分類清晰好懂,採取三步式:1、作差得分組和公式(n=1單獨驗證,處理好);2、分別按k=3m+1、k=3m、k=3m+2三種情況討論。3、比較得出最終答案,全部數值計算均正確,且每種情況都標註了完整塊對應等比數列的第幾項,定位直觀。 ▲元寶生成的答案 可追溯的漏洞在於兩式相除的合法性沒有交代,分母應該不等於0;以及在第二步討論情況2、情況3時存在性驗證不完整;未點明原條件與“塊和為2n、塊內自由”的等價性。不過這些錯誤主要是嚴謹性缺口,不影響結論,在填空題中可以接受。 最後來看看壓軸題19題,這是真正拉開差距的一題。本題給出已知負區間解析式的抽象函數,分三問求對應集合、證子集關係、推零點下界與正區間單調性,考察函數性質與嚴謹邏輯證明,是典型為極少數頂尖考生準備的題目。在真實高考環境中,能夠完整做出這道題的學生並不多。 ▲題幹(網絡回憶版) 令人意外的是,元寶不僅全部做對,而且論述過程幾乎挑不出毛病。 第一問,兩端開區間正確(t=−1即d=0、t=1/2即d=3/2處只取等不滿足嚴格大於)。這一問本就直接,無太大難度可言。為了讓大家將元寶生成的答案看得更清楚,我們截取了下圖滑動查看版本。 ▲元寶生成的答案 第二問,元寶採用同一套“先求顯式 ,再分情形驗證”的方法,關鍵結果均正確。4種情形窮盡且互斥,每個包含關係成立,端點開閉正確。常見誤區是誤以為f在R上“整體遞減”,從而把 D(x0)算成(−∞,0),元寶沒犯這個方向錯誤。 ▲元寶生成的答案 第三問第一小問,元寶採用“反證 + 顯式構造見證點”的初等做法,正確。元寶所選取的驗證點取值均採用嚴格不等關係,推導簡潔清晰。 ▲元寶生成的答案 第三問第二小問,元寶採用同一套“三步法”,先建立(0,+∞)上f≤0,再一次性比較,均正確。每一處用條件1時“值小者的D更大”的方向都用對;每個D集合成員關係都用了嚴格不等號且嚴格性成立;第三步對第一小問給出的嚴格不等式引用正確。 ▲元寶生成的答案(掃碼看完整答案) 可以看到,對於高考數學最頂層難度的問題,元寶已經具備接近頂尖考生的能力。當然,這並不意味著所有模型都達到這一水平。在橫向比較中,我們仍然看到一些模型出現:分類討論漏情況、公式推導中斷、符號系統崩潰、循環論證無法收斂、邊界條件遺漏等問題。這意味著數學能力依然是拉開大模型差距的重要戰場。 但至少從此次測試來看,國產模型已經展現出接近人類優秀學生甚至競賽級選手的數學推理能力。在標準化考試場景下,中國大模型與全球最前沿模型之間的差距正在迅速縮小。不過,這種能力仍主要體現在題目求解層面,對於更開放、更復雜的數學創造性問題,其仍有較大的提升空間。 3、英語火力全開:閱讀作文都滿分,善於聯繫上下文 最後來看看英語1卷,滿分150分,元寶無聽力部分得分114分(總分120分),換算為150分制後總分142.5分,其中閱讀題、七選五、完形填空都是滿分,語篇填空失3分,兩篇寫作分別失2分、1分。 ▲元寶在2026年全國新課標英語1卷中的得分分佈情況 以閱讀題27題為例,在處理 “作者經與兒子對話後對學習產生的新理解” 這一題目時,元寶首先定位答案對應的原文尾段,對段落內容完成翻譯與深度解讀;再逐一拆解每一個選項,清晰指出錯誤選項的邏輯漏洞;最後推導出唯一正確答案,整套解題邏輯清晰,作答格式規範完整。 ▲元寶生成的答案解析 元寶在上下文考察中顯示出優勢。比如某知名國內模型在56題語篇填空題中,未結合前文分析出此處it代指daji,與題幹所給詞彙hold之間為被動關係,因此填寫了“to hold”,但此處正確答案是“to be held”。 ▲某國產頭部模型生成的答案 而後,我們來看看寫作題。在下面這篇續寫作文題目中,元寶完美銜接前文暴風雪被困的情節設定與題目給出的段首句,從改簽紅眼列車、驅車送站到後續協助拖車、晚餐答謝,完整閉環了 “陌生人善意傳遞、困境逆轉” 的核心主題。 ▲元寶生成的答案 可以看到,文章細節設計真實飽滿,兩小時車程、公路巡邏隊拖車、暴風雪平息等設定貼合現實,同時用 “引擎轟鳴象徵新生、噩夢旅程變溫暖回憶” 完成情感昇華;語言地道流暢,red-eye train、subsided、overwhelmed with gratitude 等表達精準高級,人物從絕望到感動再到感恩的情感轉變自然連貫,完全滿足高考續寫 “情節連貫、情感真摯、主題明確、語言優質” 的高分要求。 從分析過程來看,元寶會把兩段續寫內容拆開來一步步分析,每一步都明確標註情節內容、寫作作用與主題關聯,形成了可直接落地的寫作框架,細節設計兼顧邏輯合理性與得分亮點。和另一款國產知名模型比起來,元寶寫得故事細節更足,高級句式和好詞用得也更多、更出彩。 ▲某國產模型生成的答案 從閱讀到續寫,從語法到語篇,大模型正在逐步建立起接近人類的語言理解體系。 二、高考結束,AI開始幫考生填志願 高考結束後,真正的硬仗其實才剛剛開始——填志願。 相比有標準答案的試卷,志願填報更像一道開放題。考生需要在短短幾天時間裡,面對院校、專業、地域、就業、興趣等大量信息做出選擇。每年這個階段,搜索引擎、志願填報機構和高考諮詢服務都會迎來流量高峰。而今年,一個新的參與者正在快速進入這個市場:AI Agent。 目前,元寶、千問等產品都已推出高考相關服務,希望幫助考生完成從查分、查學校到志願規劃的全流程決策。與過去主要提供信息檢索不同,新一代大模型開始嘗試扮演“志願諮詢師”的角色,不僅給出答案,還能夠根據考生情況持續追問和動態調整方案。 以元寶與QQ瀏覽器聯合推出的“元寶高考通”為例,其定位是行業首個高考諮詢師Agent。在用戶輸入分數、選科情況、地域偏好以及專業傾向後,元寶高考通系統會自動生成“衝、穩、保”三檔志願方案,並能夠結合後續對話不斷優化推薦結果,所有服務免費。 ▲元寶可輸出志願表和志願報告 智東西也體驗了相關的功能,從元寶App首頁點擊對話框旁的+號進入,就能進入元寶高考通(在QQ瀏覽器搜索“元寶高考通” 也能進入)。我快速輸入考生所在地、選科組合與高考分數後,系統會自動匹配往年同位次數據,為志願推薦提供位次依據。 ▲從元寶App進入元寶高考通 緊接著,進入推薦後,我通過點選院校地點及特色類型、就業偏好、性格偏好等多個選項,向元寶提供更具體的篩選條件。地域、專業、就業、性格等繁雜模糊的報考考量,都拆解為清晰可勾選的選項,整套偏好篩選流程僅需三分鐘左右即可完成。 ▲元寶高考通支持偏好勾選 很快,元寶形成了我的多面體畫像並基於此給我報考建議,推薦我主攻同濟和北理工,衝刺北京航空航天大學,同時將北郵、上海大學作為保底,並提供了符合興趣的理工科方向專業。 可以看到,元寶高考通不只是問答,而是完整志願規劃。不同於傳統“一問一答”工具,它能夠理解用戶整體需求,自動調用高考相關的skill組合拳來完成位次換算、院校篩選、專業匹配和志願生成等多個環節。 ▲元寶高考通會做相對完整的志願規劃 當智東西繼續告訴元寶:“可以調整下專業,優先學校,去浙大”,元寶隨即給我推薦了浙大工科試驗班、應用生物科學等專業,並向我詳細解讀了專業選擇的具體提醒,比如該專業組要必選化學、會在舟山校區上課等。這些信息以往可能要跳轉多個網站、花費大量時間才能查到,現在一個AI助手就觸達了最關鍵信息。 背後,元寶高考通覆蓋了全國院校數據。據悉,其底層數據來自教育在線·掌上高考,覆蓋全國31個省市、近3000所院校及近12年錄取數據。高考出分後同步更新分數線和一分一段表,為志願填報提供數據支撐。 ▲通過對話在元寶高考通獲取更多建議 值得一提的是,元寶高考通還支持越聊越精準的個性化推薦。當智東西繼續問元寶:“這些專業好就業嗎?如果畢業後想從事科技公司工作,或者考公,該選什麼專業?”元寶直接告訴我之前推薦的應用生物科學對標“科技大廠”不匹配,並給我推薦了計算機類/軟件工程、統計/數據科學等專業。 元寶具備完整對話上下文記憶能力,給出專業推薦時,會同步對照前文提到的 INTP 性格、偏好力學相關學科等需求進行匹配校驗。在這樣的對話補充中,我可選的學校和專業範圍就更加收斂精準了。 ▲元寶高考通支持越聊越精準的個性化推薦 可以看到,與傳統高考工具側重信息查詢不同,元寶高考通更強調全流程決策輔助。背後,由元寶官方介紹可知,元寶高考通從固定Workflow轉向真正的Agent架構,結合技能調用、上下文記憶和RAG檢索增強能力,最終實現對用戶需求的自主理解、個性化推薦以及權威高考信息的精準獲取。 某種程度上,這也體現了國產大模型能力發展的新階段。相比高考做題時展現的知識和推理能力,志願填報更考驗信息整合和決策輔助能力。當AI開始從“會做題”走向“幫決策”,其應用場景也正在從考場延伸到現實生活。 結語:從2026年高考,看到國產AI能力邁上新臺階 AI高考背後,是國產大模型過去一年的集體躍升。無論是數學中的複雜推理與證明,還是語文、英語中的閱讀理解與寫作表達,國產頭部模型已經進入高考高分區,並在高考考生志願填報中充當更重要的輔助決策角色。 過去一年,從DeepSeek推動推理模型普及,到千問持續刷新開源模型能力上限,中國大模型正在全面追趕全球第一梯隊。而元寶背後,騰訊混元3系列模型自今年4月底以來已連續七週位居OpenRouter模型調用量前列。在過去,這樣的位置長期被Claude、GPT等海外模型佔據,如今國產模型正越來越頻繁地出現在全球開發者生態的核心舞臺上。 如果把時間撥回一年前,許多今天被認為理所當然的能力,當時還遠未成熟。當然,差距依然存在,主要體現在長鏈推理穩定性、複雜證明嚴謹性,以及開放任務中的創造力和真實體驗感上,但這些短板正在被快速補齊。透過高考這面鏡子,我們得以清晰地窺見:那個曾無數次討論、憧憬的AI時代,正以肉眼可見的速度,大步走入現實。

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前