300個Agent預測104場比賽，Kimi拿世界盃做一場AI公開實驗

2026年6月8日 13:30

重點摘要

站內 AI 整理稿

智東西作者 | 江宇編輯 | 漠影德國爆冷奪冠！看到Kimi這份世界盃預測報告，很多球迷第一反應大概率是：這AI能懂球嗎？畢竟，足球比賽最有意思的地方就在於隨機。強隊會翻車，弱隊會爆冷。門將的脫手，或是一張紅牌，都可能把整場球賽帶到一個未知的比分。但Kimi這次就把這個高不確定性的題目拿來，做了一場大型實驗。 2026世界盃是最貴的一屆，也是最複雜的一屆。今年，世界盃將擴容到48支球隊、12個小組、104場比賽，賽程橫跨美國、加拿大和墨西哥三國。小組出線、淘汰賽對陣、球員傷病、旅途消耗、天氣變化和輿論壓力，每一項都與比賽結果密切相關。光說讓一個人看完整屆世界盃，已經夠累了。Kimi的做法是：直接派出最多300個Agent，把這些變量分開研究。有的Agent看戰術，有的Agent盯球員狀態，有的Agent算賽程和旅途，還有的Agent專門唱反調，負責找出預測裡可能被忽略的風險。它們累計完成了超過10萬次模擬推演，最後生成了一份224頁的世界盃預測報告。這場活動叫Kimi Token Goal。Kimi會圍繞104場比賽進行賽前預測和賽後覆盤，把自己的判斷放到真實賽果面前接受檢驗。可以看出，這是一次娛樂性質的世界盃預測活動。但這背後實打實地考驗著Kimi最近迄今最新與最強的能力：Agent集群和Kimi Work。前者讓300個Agent像一支研究小隊一樣分頭做事，後者則把這種能力放進普通人的電腦桌面。今天它們一起研究世界盃，明天也可能幫用戶做行業研究、數據分析、報告生成和工作流自動化。可以說，Kimi這次不是單純想當“數字章魚保羅”，也讓我們看看：Agent不只是會聊天，還能圍繞一個複雜任務持續幹活、反覆修正，並且把結果交給真實世界來檢驗。一、看衰阿根廷，德國成“最大黑馬”？是300個Agent算出來的 Kimi此次最受關注的預測之一，或許是直接給衛冕冠軍阿根廷敲響了警鐘，並且公開預測德國隊爆冷奪冠。阿根廷有梅西，德國近幾年大賽表現又並不穩定，Kimi為什麼會給出這樣的判斷？其實，這來自Agent集群的多輪推演。 Agent集群累計完成超過10萬次世界盃模擬，評估阿根廷在淘汰賽首輪（32強賽）出局的概率約為15%。而德國隊在樂觀情景下的奪冠概率則達到18%。在阿根廷這邊，Kimi設置了悲觀情景推演。重點跟蹤10名存在傷病隱患的國腳，也會考慮梅西、奧塔門迪等老將年齡增長帶來的影響。在德國這邊，Kimi關注的是穆西亞拉、維爾茨等新生代球員的狀態，以及德國隊在部分情景下被低估的可能性。為了避免模型只強化主流觀點，Kimi還引入了反方Agent機制。這部分Agent專門尋找潛在風險因素，將阿根廷過去64年未曾消失的“衛冕冠軍魔咒”等歷史規律納入分析。它們的任務就是找漏洞、找反例和找翻車風險。因此，這個看似“出奇”的結論是由300個Agent大量模擬、交叉驗證和正反觀點博弈後的結果。二、變量多、信息雜、分歧大，世界盃成了Agent集群的天然考場本屆世界盃有104場比賽，比賽數量比過去更多，變量也更多。無論對資深球迷，還是“初出茅廬”的Agent集群來說，想要預測結果，都不是一個只看歷史勝率就能解決的問題。但是，Agent集群恰恰適合這種任務。戰術Agent看陣型和打法，球員Agent追蹤狀態和傷病，賽程Agent計算旅途和休息，歷史Agent分析過往交鋒，反方Agent專門提出不同意見，合規Agent則負責把內容控制在體育研究和娛樂討論範圍內。並且，世界盃還有一個特殊機制：結果天然公開。預測正確與否、哪些變量判斷失誤、哪些因素被低估，都可以在賽後覆盤並反饋給系統。對於Agent來說，世界盃既有足夠複雜的信息環境，也有明確的結果反饋機制，是觀察其複雜任務處理能力的一個典型場景。三、世界盃之外，Agent集群還能做什麼？當然，預測世界盃是一個相對容易被我們理解的場景。但Kimi真正的野心，其實在你我的電腦桌面上。世界盃預測背後的核心能力，是任務拆解、並行研究、信息整合和持續修正。這套能力同樣適用於行業研究、財報分析、商業盡調等複雜工作。 Kimi Work是Kimi電腦客戶端新增的本地通用Agent模式。其關鍵能力，就是支持Agent集群。它可以自主創建300個分身，並行完成原本耗時較久的複雜工作。程序員以前用Coding Agent在終端裡讓AI寫代碼，現在知識工作者則可以在電腦桌面上用Kimi Work讓AI做調研、分析、整理文件、生成報告，以及跨工具完成一整套任務。此外，Kimi Work還內置專業數據源和Kimi WebBridge，能夠操作用戶自己的瀏覽器和登錄態，可以“上手處理”用戶日常工作的真實桌面，包括網頁、表格、PPT、本地文件和各種零散資料。世界盃只是前菜，Agent集群真正面向的是更廣泛的知識工作場景。與此同時，Kimi還圍繞世界盃推出了一系列互動活動：用戶可選擇一支球隊作為主隊，參與冠軍預測；德國隊或用戶所選主隊每贏一場，均可參與瓜分10億token池。結語：一場AI能力的世界盃公開考 Kimi Token Goal並非是要證明AI能100%猜中世界盃。足球的魅力，恰恰來自它的不確定性。任何因素都可能在幾分鐘內改寫一場比賽的走向。所以，如何組織300個Agent一起研究一件複雜事情，或許更值得關注。世界盃則提供了一個天然的實驗場。每一場比賽都會給出真實結果，每一次預測都能接受球迷和賽果的檢驗，每一次判斷失誤也都能被拿出來覆盤。對於Kimi來說，這次活動的意義不只是預測冠軍歸屬，更是把分析過程、預測結果和賽後覆盤放在同一個“透明框”裡，向外界展示Agent集群如何處理複雜任務，以及當前AI能力究竟能做到什麼、還有哪些邊界。今天，300個Agent研究的是世界盃；明天，它們研究的或許就是你的下一份行業報告。

原始來源：智東西 ↗

查看原始來源

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

1 小時前閱讀分析

MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

15 小時前閱讀分析

36氪模型更新

智譜新高，MiniMax承壓，“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高，MiniMax承壓，“大模型雙雄”命運殊途」。原始導語提到：大模型在被市場重新定價從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前閱讀分析

IT之家模型更新

華為昇騰 0 Day 支持智譜 GLM-5.2 模型，提供全面推理優化

華為昇騰 AI 宣佈在智譜開源 GLM-5.2 大模型當天即完成深度推理優化。通過 MOE 大融合算子、通信計算融合、高併發調度等七項關鍵技術，顯著提升編程和長程任務的處理效率，現已支持 A3 系列產品部署。#AI 大模型# #國產算力#

1 天前閱讀分析

AIBase模型更新

企業AI轉型再添利器：青雲科技算力雲接入 MiniMax-M3 模型

企業AI落地面臨高效低成本難題。青雲科技旗下基石智算平臺接入國產開源大模型MiniMax-M3，提供新算力支持。MiniMax-M3以卓越上下文處理能力等三大核心技術見長，依託自研架構，助企業便捷部署AI業務。

1 天前7000閱讀分析

AIBase模型更新

阿里開源統一科學大模型 LOGOS，僅用五十六分之一參數超越微軟

阿里 ATH-Token Foundry 聯閤中國人民大學高瓴人工智能學院開源科學基礎模型 LOGOS。該模型採用統一科學語法與純序列建模範式，在六大科學任務上匹配或超越傳統專用方法。其中 LOGOS-1B 僅 1B 參數，即展現出極高效率，性能超越參數量達 8×7B 的微軟模型。

1 天前9300閱讀分析

相關文章