四大頂級 AI 對決《文明 VI》!Claude「核平」法國,結果還是輸了

重點摘要
英國前首相府數據科學家將 Claude、GPT、Gemini 等四大 AI 模型投入《文明 VI》進行 23 場治國模擬。Claude 扮演的葡萄牙在即將外交勝利時,因過度關注法國文化威脅,耗費 50 回合研發核彈摧毀圖盧茲,卻最終因外交分落後而輸掉比賽。測試揭示了 AI 普遍存在的“感知盲區”和“知行差距”兩大工程瓶頸。#AI 治理# #文明 VI#
這篇消息由 IT之家 提供,主題聚焦於「四大頂級 AI 對決《文明 VI》!Claude「核平」法國,結果還是輸了」。根據目前可取得的資訊,事件重點可整理為:英國前首相府數據科學家將 Claude、GPT、Gemini 等四大 AI 模型投入《文明 VI》進行 23 場治國模擬。Claude 扮演的葡萄牙在即將外交勝利時,因過度關注法國文化威脅,耗費 50 回合研發核彈摧毀圖盧茲,卻最終因外交分落後而輸掉比賽。測試揭示了 AI 普遍存在的“感知盲區”和“知行差距”兩大工程瓶頸。#AI 治理# #文明 VI#
從 AI 產業角度來看,這類消息通常反映模型能力、產品落地、基礎設施、商業策略或市場需求的變化。它不只是單一新聞事件,也可能代表相關公司正在調整技術路線、產品節奏或資源投入方向。
對開發者而言,值得觀察的是這項變化是否會帶來新的工具鏈、模型能力、API 使用方式或部署成本變化。對企業而言,重點則在於它是否能轉化為更高效率、更低成本,或更明確的商業應用場景。
如果這項消息涉及模型、Agent、AI 工具或算力基礎設施,後續可以特別留意其實際效果、使用門檻、開放程度與生態整合能力。很多 AI 新聞在發布初期看似熱鬧,但真正的價值通常要等到開發者採用、企業測試或市場反饋後才會更清楚。
本站整理這類資訊時,會優先保留可驗證的事實與可追蹤的方向,避免把單一發布過度解讀為確定趨勢。讀者可以把它視為一個觀察節點:它可能是技術成熟、產品競爭、資本流向或監管環境變化的一部分。
後續可以持續關注相關技術是否進一步公開、產品是否擴大測試或商用,以及同類競爭者是否跟進。本文為站內 AI 整理稿,建議需要完整細節時再參考原始來源。
Related
相關文章

Anthropic 調研:約半數 Claude 用戶稱 AI 已可承擔一半以上的工作
Anthropic 調研顯示,約半數 Claude 用戶認為 AI 已能承擔其 50% 以上工作。營銷文案、博客創作和數據庫查詢是 AI 應用最廣的場景。儘管職場新人擔憂被替代,但重度使用者卻對個人價值提升持樂觀態度。#AI 職場# #Claude#
安全預警系統,看不見的滴滴「基建」
近日,滴滴在成都辦了一場安全開放日,多個司機、乘客、行業專家和媒體被邀請走進滴滴安全預警中心,現場體驗一線安全專家如何聽音、研判和幹預訂單風險。這也是滴滴少有地把網約車安全後臺攤開給外界看。滴滴創始人、CEO、集團安委會主任程維在活動中表示,保障每天數千萬訂單的安全,是滴滴身上的責任。滴滴安全體系已經迭代多次,但仍然“還在路上”。他希望通過開放日,讓外界看到滴滴如何做安全,也給平臺提出更多意見。網約車安全和常規互聯網推薦系統不同。推薦、搜索算法通常要在準確率和召回率之間取得平衡,但安全算法不一樣。滴滴網約車技術和安全負責人曹樂表示,安全風險是低頻事件,但只要平臺有能力召回,就不能為了提高準確率而漏掉風險。這意味著,滴滴安全系統必須優先保證召回率。然而,代價是大量誤判。據曹樂介紹,即便經過大模型多輪篩查,進入安全預警中心的訂單,絕大多數最終仍然是安全訂單。真正有風險的比例,可能只有幾千分之一,甚至幾萬分之一。但這套系統仍然需要持續運轉。目前,滴滴一方面投入大量GPU資源做大模型前置篩查,另一方面配置了4000多名安全相關工作人員,處理風險工單。滴滴內部每年在安全上的投入,已經超過去年集團淨利潤。曹樂稱,在滴滴,安全投入幾乎是唯一不會被質疑ROI的投入方向。原因是2018年順風車事件之後,滴滴重新搭建整套安全體系。此後幾年,安全投入即使成本很高,也沒有被壓縮。平臺的目標不是證明每一筆安全投入都能產生收入,而是儘可能不漏掉任何一個可識別風險。從叫車開始,到司乘真正分離滴滴現在對“行程安全”的定義,已經不只是上車到下車。在安全專家眼裡,一次行程從用戶叫車成功開始,到司機和乘客安全分離結束。這決定了滴滴安全體系覆蓋的是行前、行中和行後。行前,平臺會對司機、車輛證件和人車一致性進行核驗。司機每天出車前,還需要完成身份、車輛、安全教育等檢查。如果司機有過輕微安全問題,平臺會推送專項安全教
vivo“再造”摺疊屏
手機行業從來不缺挑戰。自從2023年中國科技產業開啟了所謂的“大模型狂飆時代”後,從互聯網巨頭到傳統製造業,從手機廠商到汽車新勢力,中國科技行業迅速陷入了一場前所未有的焦慮當中。在行業落地方向尚未明確時,各行各業均選擇了“先上車後補票”的方式乘上這趟“快車”。手機作為最接近消費者的入口,同樣也成為了各行各業眼中的“必爭之地”。手機廠商如何在激烈的競爭中佔據領先地位,早已成為了新的課題。但對手機廠商而言,競爭是立體的,既是向內,也是向外。向內,手機廠商之間的競爭已進入消耗戰。除了卷參數、卷配置、卷價格三條路徑,各家同樣開始了AI時代的內卷,大量投入研發資源,爭取奪下“AI手機”的心智高地。向外,OpenAI正以65億美元收購蘋果前首席設計官Jony Ive創立的io Products團隊,並準備推出自有品牌智能手機;字節的豆包手機隨著第一代的爆火,也即將推出第二代產品。階躍星辰、追覓Eclix同樣也在向著這一領域進發。向內是紅海,向外是未知數。AI時代需要新的產品形態支撐產品價值,只是從AI的發展速度來看,留給手機廠商的機會並不充裕,想要成為牌桌上的“領頭羊”,這需要手機廠商有清晰的洞察和產品能力,且每一步都極為關鍵。今年年初,vivo總裁、首席運營官胡柏山曾對外透露過vivo對於未來產品發展的初步規劃,並提出了“Agent Phone”的技術構想,表明了下一代智能手機應該做到:能夠主動理解用戶需求、自動完成任務、智能調度服務。彼時,vivo將相機Agent能力搭載在了新一代旗艦機型X300 Ultra 與X300s上,除了專業的影像能力進一步提升,從某種程度來說,這也是Agent Phone的階段性成果展示。但胡柏山也直言:“X300 Ultra會展示Agent Phone的核心能力,但它還不是終極形態。”隨著這兩臺手機在消費者群體中廣受好評,如今vivo決定向著“Agen

谷歌 Gemini 助手新功能:直接幫用戶安裝 Play 商店內的應用
谷歌宣佈將 Play 商店集成至 Gemini 助手,用戶現在可以直接在聊天窗口內搜索、篩選並安裝應用,甚至完成內購,無需跳轉。這項功能旨在解決海量應用庫中“大海撈針”的痛點,讓找 App 變得更簡單。#Gemini# #GooglePlay#

GPT-5.6來了:旗艦版碾壓 GPT-5.5,價格卻沒漲
這篇消息聚焦「GPT-5.6來了:旗艦版碾壓 GPT-5.5,價格卻沒漲」。原始導語提到:OpenAI把GPT-5.6做成了像蘋果芯片一樣的產品矩陣。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
重構交互底層邏輯:Rokid發佈AIOS,智能眼鏡行業進入“原生”時刻
2026年6月26日,樂奇Rokid Open Day生態及開發者大會舉行。會上,Rokid首次提出“AIOS原生智能眼鏡操作系統”概念,並正式推出全球首款智能眼鏡AIOS操作系統——YodaOS。這一動作的核心意義在於,它將行業競爭從硬件參數與功能堆砌,拉到了操作系統與交互邏輯的底層重構層面,這標誌著智能眼鏡行業正式邁入“原生AI操作系統驅動的新紀元”。從硬件堆疊到體驗重構:YodaOS的四層遞進邏輯在移動互聯網時代,手機與觸屏操作系統是核心交互載體。而進入AI時代,輕量化、可全天候佩戴、支持多模態大模型交互的智能眼鏡,被業界視為下一代核心終端的有利候選。但長期以來,智能眼鏡受限於系統適配弱、場景落地難、交互單一滯後等痛點,始終未能在體驗上真正獨立。YodaOS的發佈,正是Rokid對這一現狀的解題思路。Rokid副總裁、XR中心負責人王俊傑詳細解讀了YodaOS的技術架構。其核心設計理念是“以人為本,體驗為先”,目標是讓AI助手實現“召之即來,不用即隱”。為此,YodaOS搭建了四層遞進式核心架構,試圖完成從環境感知到信息呈現的全鏈路閉環:第一層為極速交互界面。 通過2字喚醒詞與0.2秒極速響應,打造自然絲滑的人機交互起點。第二層為多維感知層。 依託雙芯片雙系統獨立運行、端邊雲協同算力拆分,實現全天候持久感知,兼顧設備續航與運行穩定性。第三層為智能能力層。 融合用戶記憶、知識圖譜、技能工具等多維上下文信息,讓AI越用越懂用戶、越用越貼合需求。第四層為場景落地層。 聚焦用戶真實痛點,持續迭代功能服務——自去年9月產品發售以來,YodaOS已完成20次OTA升級、累計更新500項功能,實現“常用常新”的用戶體驗。這套架構的本質,是讓眼鏡“看得見環境、聽得懂意圖、辦得成事情、展得清信息”,徹底告別傳統AI交互中“一問一答”的機械感。AI助手2.0與AIUI:從被動應答到主動服