時隔4個月，谷歌Nano Banana再發新模型

2026年7月1日 02:52

重點摘要

這篇消息聚焦「時隔4個月，谷歌Nano Banana再發新模型」。原始導語提到：智東西編譯 | 楊京麗編輯 | 李水青智東西7月1日消息，今天，谷歌宣佈開放兩款新模型：圖像生成模型Nano Banana 2 Lite和視頻生成編輯模型Gemini Omni Flash。 ▲谷歌推出Nano Banana 2 Lite和Gemini Omni Flash（圖源：X）今年2月，谷歌推出Nano Banana 2，在保持較低延遲的同時提升圖像生成質量，支持更強的推理能力和搜索能力。今年5月，谷歌在I/O大會上首次展示Gemini Omni Flash，定位為原生多模態的視頻生成編輯模型，但當時並未向開發者開放。此次更新的模型Nano Banana 2 Lite是初代Nano Banana的推薦替代模型，主打近實時、較高質量圖像生成，單張1K分辨率圖像生成延遲約4秒、價格0.034美元（約合人民幣0.23元）起；Gemini Omni Flash則首次面向開發者公開預覽，支持文本、圖像和視頻輸入，可用自然語言進行多輪視頻編輯，目前支持10秒視頻生成，視頻輸出價格為每秒0.10美元（約合人民幣0.68元）。評測結果顯示，Nano Banana 2 Lite在圖像生成和圖像編輯Elo分數上略低於Nano Banana 2，但速度更快，成本更低；Gemini Omni Flash在視頻編輯模型對比中，整體偏好和指令遵循兩項Elo評分均位列第一，領先HappyHorse、Kling v3 Pro、Seedance 2.0等模型。兩款模型現已登陸Google AI Studio、Gemini API和Gemini Enterprise Agent Platform，其中Gemini Omni Flash還可在Gemini app和Google Flow中使用。此次更新後，用戶可以先用Nano Banana 2 Lite快速生成圖像，再通過Gemini Omni Flash將靜態圖像轉化為可繼續編輯的視頻內容。谷歌還推出了Anywhere、Space Lift、Omni Product Studio等演示應用，展示從自拍換地標、室內設計預覽到電商視頻生成等圖像到視頻工作流。一、Nano Banana 2 Lite替代初代模型，速度快性價比高谷歌稱，Nano Banana 2 Lite（gemini-3.1-flash-lite-image）是當前使用初代Nano Banana（gemini-2.5-flash-image）的推薦替代模型，在圖像質量、生成速度和成本等維度都有明顯提升。雖然該模型優先強調速度，谷歌仍稱其保留了較穩定的提示詞遵循能力、角色一致性和圖中文字渲染能力。谷歌列出了Nano Banana 2、Nano Banana 2 Lite與多款競品AI圖像模型的性能對比，評估維度包括圖像生成和圖像編輯的Elo分數、單張1K分辨率圖像的生成延遲，以及對應價格。 ▲Nano Banana 2 Lite與其他圖像生成模型評測對比（圖源：谷歌） Nano Banana 2 Lite圖像生成Elo分數為1251，略低於Nano Banana 2的1270，高於Flux 2 Klein 9B、Grok Imagine Image和Seedream v5 Lite等對照模型；在圖像編輯上，Nano Banana 2 Lite得分為1308，在對照模型中位列中等水平。速度和成本是Nano Banana 2 Lite最突出的優勢。生成一張1K分辨率圖像的延遲約為4.0秒，明顯快於Nano Banana、Nano Banana 2和Seedream v5 Lite等模型。價格方面，Nano Banana 2 Lite每張1K圖像約0.034美元（約合人民幣0.23元）起，成本低於谷歌其他圖像模型，價格與Seedream v5 Lite的0.035美元（約合人民幣0.24元）接近，高於Flux 2 Klein 9B、Grok Imagine Image。為了便於消費者理解Nano Banana產品線，谷歌也列出表格在延遲、成本、視覺質量、推理能力四大方面對其模型進行對比。 ▲Nano Banana系列三款模型對比（圖源：谷歌）（1）Nano Banana 2 Lite（Gemini 3.1 Flash Lite Image）生成速度快，主打近實時、高流量工作流；（2）Nano Banana 2（Gemini 3.1 Flash Image）為通用型模型，在性能與成本之間取得平衡，以較低延遲維持較高的生成質量；（3）Nano Banana Pro（Gemini 3 Pro Image）則面向複雜專業場景，強調控制能力和高級推理；（4）Nano Banana（Gemini 2.5 Flash Image）則被歸為舊款模型，建議開發者升級到Nano Banana 2 Lite，追求更高的質量、更低延遲和更低的成本。除開發者平臺外，Nano Banana 2 Lite也會進入谷歌消費端產品，包括搜索中的AI Mode、Gemini應用、NotebookLM、Google Photos、Stitch、Google Flow和Google Ads。 X上部分網友測試了這一模型，稱Nano Banana 2 Lite生成質量與Nano Banana 2接近，但速度明顯更快。 ▲海外網友測試Nano Banana 2 Lite（圖源：X）二、Gemini Omni Flash開放公測，支持10秒視頻生成，每秒0.10美元前段時間，視頻生成編輯模型Gemini Omni Flash曾在谷歌I/O大會上亮相，但尚未開放；此次谷歌正式開啟公開預覽，用戶現在可以通過Gemini API和Google AI Studio使用該模型。 ▲Gemini Omni Flash根據原視頻生成魔術特效（圖源：谷歌）該模型把Gemini的多模態推理能力與視頻生成、編輯能力結合起來，支持從文本、圖像和視頻輸入中生成或編輯視頻，並可通過自然語言進行多輪修改。每秒視頻輸出為0.10美元（約合人民幣0.68元），與Veo 3.1 Fast相同。 Gemini Omni Flash核心能力包括對話式視頻編輯、多模態參考輸入、調用Gemini知識構建視頻內容，以及通過提示詞讓文字、圖形和視頻動作實現同步。谷歌列出了Gemini Omni Flash與多款競品視頻編輯模型的Elo評分對比。無論是整體表現還是指令遵循，Gemini Omni Flash都具備較高領先優勢。 ▲Gemini Omni Flash與其他視頻模型評測對比（圖源：谷歌）從整體偏好看，Gemini Omni Flash得分為1087，位列第一，高於HappyHorse的1044、Kling v3 Pro的1020、Seedance 2.0的946和Wan 2.7的902。在指令遵循能力上，Gemini Omni Flash同樣排名第一，得分為1082，領先HappyHorse的1036、Kling v3 Pro的1022、Seedance 2.0的960和Wan 2.7的900。不過，該模型目前仍有限制。谷歌稱，Omni Flash當前支持10秒視頻生成，後續會推出更長時長；Gemini API暫不支持上傳音頻參考和場景擴展；API schema雖可接受最長3秒的視頻參考，但模型現階段還不能正確處理；在切換場景或平移動作時，角色一致性仍有侷限。三、兩款模型可串聯使用，先快速出圖再生成視頻谷歌此次同步更新了圖像與視頻生成能力，因而用戶可以先用Nano Banana 2 Lite快速出圖，再通過Gemini Omni Flash將靜態圖像轉化為可繼續編輯的視頻內容。用戶可通過Interactions API保留會話歷史和上下文，最多可疊加三次連續編輯。為展示這一路徑，谷歌推出了幾個演示應用，供用戶體驗。 Anywhere應用可以把用戶“帶到”世界各地。用戶上傳照片後，Nano Banana 2 Lite能將圖像背景換成世界知名地標，之後Gemini Omni Flash還能把生成的圖像變成該地點的動畫短片。 ▲Anywhere根據用戶照片生成動態視頻（圖源：谷歌） Space Lift面向室內設計，可根據房間照片，利用Nano Banana 2 Lite生成不同裝修風格，並利用Gemini Omni Flash生成動態展示視頻。 ▲Space Lift根據照片生成房間動態展示視頻（圖源：谷歌） Omni Product Studio則可把Nano Banana 2 Lite生成的靜態圖，用Gemini Omni Flash轉成電商風格視頻。 ▲Omni Product Studio生成的電商視頻（圖源：谷歌）結語：谷歌加速補齊可編輯視頻生成能力此次更新後，谷歌的生成式媒體能力進一步延伸到視頻編輯工作流。用戶可以先用Nano Banana 2 Lite快速生成圖像素材，再通過Gemini Omni Flash把靜態圖像轉化為可繼續修改的視頻內容，多輪編輯、提示詞同步和多模態參考輸入成為這次更新的核心看點。隨著Nano Banana系列圖像模型進一步分層，谷歌也在把類似思路延伸到視頻生成領域。谷歌此次推出視頻編輯模型Gemini Omni Flash，有助於儘快收集應用場景和反饋，並推動圖像、視頻、自然語言編輯在Gemini生態內形成更連貫的創作鏈路。來源：谷歌從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

根據智東西的原始內容，這篇消息聚焦「時隔4個月，谷歌Nano Banana再發新模型」。以下整理保留來源中的主要事實與脈絡。智東西編譯 | 楊京麗編輯 | 李水青智東西7月1日消息，今天，谷歌宣佈開放兩款新模型：圖像生成模型Nano Banana 2 Lite和視頻生成編輯模型Gemini Omni Flash。 ▲谷歌推出Nano Banana 2 Lite和Gemini Omni Flash（圖源：X）今年2月，谷歌推出Nano Banana 2，在保持較低延遲的同時提升圖像生成質量，支持更強的推理能力和搜索能力。今年5月，谷歌在I/O大會上首次展示Gemini Omni Flash，定位為原生多模態的視頻生成編輯模型，但當時並未向開發者開放。此次更新的模型Nano Banana 2 Lite是初代Nano Banana的推薦替代模型，主打近實時、較高質量圖像生成，單張1K分辨率圖像生成延遲約4秒、價格0.034美元（約合人民幣0.23元）起；Gemini Omni Flash則首次面向開發者公開預覽，支持文本、圖像和視頻輸入，可用自然語言進行多輪視頻編輯，目前支持10秒視頻生成，視頻輸出價格為每秒0.10美元（約合人民幣0.68元）。評測結果顯示，Nano Banana 2 Lite在圖像生成和圖像編輯Elo分數上略低於Nano Banana 2，但速度更快，成本更低；Gemini Omni Flash在視頻編輯模型對比中，整體偏好和指令遵循兩項Elo評分均位列第一，領先HappyHorse、Kling v3 Pro、Seedance 2.0等模型。兩款模型現已登陸Google AI Studio、Gemini API和Gemini Enterprise Agent Platform，其中Gemini Omni Flash還可在Gemini app和Google Flow中使用。此次更新後，用戶可以先用Nano Banana 2 Lite快速生成圖像，再通過Gemini Omni Flash將靜態圖像轉化為可繼續編輯的視頻內容。谷歌還推出了Anywhere、Space Lift、Omni Product Studio等演示應用，展示從自拍換地標、室內設計預覽到電商視頻生成等圖像到視頻工作流。一、Nano Banana 2 Lite替代初代模型，速度快性價比高谷歌稱，Nano Banana 2 Lite（gemini-3.1-flash-lite-image）是當前使用初代Nano Banana（gemini-2.5-flash-image）的推薦替代模型，在圖像質量、生成速度和成本等維度都有明顯提升。雖然該模型優先強調速度，谷歌仍稱其保留了較穩定的提示詞遵循能力、角色一致性和圖中文字渲染能力。谷歌列出了Nano Banana 2、Nano Banana 2 Lite與多款競品AI圖像模型的性能對比，評估維度包括圖像生成和圖像編輯的Elo分數、單張1K分辨率圖像的生成延遲，以及對應價格。 ▲Nano Banana 2 Lite與其他圖像生成模型評測對比（圖源：谷歌） Nano Banana 2 Lite圖像生成Elo分數為1251，略低於Nano Banana 2的1270，高於Flux 2 Klein 9B、Grok Imagine Image和Seedream v5 Lite等對照模型；在圖像編輯上，Nano Banana 2 Lite得分為1308，在對照模型中位列中等水平。速度和成本是Nano Banana 2 Lite最突出的優勢。生成一張1K分辨率圖像的延遲約為4.0秒，明顯快於Nano Banana、Nano Banana 2和Seedream v5 Lite等模型。價格方面，Nano Banana 2 Lite每張1K圖像約0.034美元（約合人民幣0.23元）起，成本低於谷歌其他圖像模型，價格與Seedream v5 Lite的0.035美元（約合人民幣0.24元）接近，高於Flux 2 Klein 9B、Grok Imagine Image。

原始來源：智東西 ↗

查看原始來源

雷峰網生成式AI

Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車

根據雷峰網的原始內容，這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。根據雷峰網的原始內容，這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。

6 小時前閱讀分析

雷峰網生成式AI

全球首份大語言模型安全防範能力測評報告在北京發佈

根據雷峰網的原始內容，這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。根據雷峰網的原始內容，這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。根據雷峰網的原始內容，這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。

6 小時前閱讀分析

雷峰網生成式AI

十年ICML，十次思想浪潮，當AI開始問“為誰而算”｜ICML2026

作者｜吳思夢編輯｜岑峰引言： 2016年6月，紐約。David Silver站到了ICML的講臺上，用66頁幻燈片，從Q-Learning一路推到AlphaGo。他傳遞出一種信念：把深度網絡嫁接到強化學習上，通用智能的湧現就只是算力和工程問題。彼時距AlphaGo在首爾4∶1擊敗李世石僅三個月。十年後的2025年7月，溫哥華。

12 小時前閱讀分析

雷峰網生成式AI

Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」

這篇消息聚焦「Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」」。原始導語提到：6月30日，Anthropic和OpenAI同時在AI4S賽道投下了各自的籌碼。Anthropic發佈了科研智能體工作臺Claude Science，明確表態“不依賴新模型”，通過工作流整合現有能力來承包科學家的日常研究流程。OpenAI推出了GeneBench-Pro，一套覆蓋基因組學、定量生物學等10個領域的評測基準，其測試數據顯示，在129個真實科研workflow題目中，即便是最強的GPT-5.6 Sol，端到端通過率也只有28.7%。兩家巨頭的方向看似不同，但都是基於同一個判斷：AI4S的瓶頸已不是模型不夠強，而是模型遠未做到真正的端到端。基於這一共識，Anthropic的選擇是把現有模型裝進可擴展的工作臺，用工具鏈和流程彌補模型的不可靠；OpenAI的選擇則是搶先定義“什麼是科研任務的完成”，把話語權鎖進標準裡。而在此之前，Google DeepMind已憑藉AlphaFold等基礎模型在AI+科學領域深耕多年，其Gemini for Science平臺正將專有資產與數據庫捆綁，以平臺整合的方式切入同一市場。AI4S的戰局，已經悄然進入“巨頭生態混戰”階段，從模型能力的單點比拼，全面切換到了生態位卡位與工作流整合的戰場。01AI4S撞上了一塊怎樣的“天花板”為什麼三大巨頭偏偏在這個時間點，不約而同地把戰火燒到AI4S的底層基礎設施？開頭提到，OpenAI這次在GeneBench-Pro中設計了129道題目，完整模擬了真實科研工作流：從原始數據清洗、質控、建模、診斷，一直到得出結論。評分標準是嚴苛的二元制：只有全部決策正確才算通過。也就是說，哪怕中間分析步驟全對，只要最終結論錯了，這道題就是零分。數據顯示，OpenAI最強的GPT-5.6 Sol在Max推理設置下的通過率也只有28.7%，而在非GPT模型中表現最強的Claude Opus 4.8，其通過率僅達到16.0%。這說明，模型是能夠注意到數據異常，識別出局部診斷信號的，但無法將這一認知轉化為下游的方法論調整，做出相應的正確分析決策。注意到了問題，但沒有改變行動——OpenAI在論文中將這一缺陷，命名為“notice-act gap”。“識別”與“行動”之間的這道鴻溝從何而來？珞米科技創始人兼CEO吳昊從技術層面指出，通用大語言模型在生命科學領域存在三重結構性短板：其一，難以直接理解生物原始數據的特殊結構；其二，生物學中的許多現象無法簡單套用文本的tokenization規則，比如基因表達本身具有隨機性；其三，生物學數據中普遍存在大量未知缺失值。科研成本也是不可忽視的一個因素。GeneBench-Pro數據顯示，單道題的人工專家成本高達數千美元。當模型不可靠時，科研機構不得不繼續依賴昂貴的人力。除此之外，生命科學領域也對數據合規有著極其嚴苛的要求。這就是混戰發生在當下的原因。模型能力觸及了“notice-act gap”的天花板，堆算力的老路在科研場景裡走不通，工程化整合、生態卡位和數據主權，變成了更務實的突破口。三大巨頭不約而同的入局，是“撞”天花板撞出來的必然。02同一張牌桌，三種不同打法在這塊天花板面前，三家巨頭選擇了截然不同的AI4S方向，雷峰網注意到，它們都指向同一個終點：成為科學家工作不可或缺的底層基礎設施。Anthropic的打法最直白。Claude Science本質上是一個專門的工作臺——主AI助手像項目經理一樣拆分任務，拆解後分發給子助手執行，再由事實核驗器交叉驗證。它連接了60多個科學數據庫，預建了基因組學、蛋白質結構和化學等工具包。吳昊分析指出，其技術實質是通過MCP協議調用外部垂直模型（如scGPT處理單細胞數據、DNABERT解析基因序列等）執行具體計算，Claude自身只承擔自然語言理解、任務拆解和結果解讀的角色。這種分工使得Anthropic確實無需依賴新模型，也帶來了現實優勢：一方面避免了通用大模型直接處理生物矩陣時的高昂推理成本；另一方面，垂直模型可以獨立迭代，無需等待通用大模型的長週期更新。更重要的是，生命科學領域嚴格要求數據合規，這種做法能讓敏感數據在本地MCP Server上處理，無需上傳雲端。如果說Anthropic的做法，相當於“包攬”了一整條跑道，那麼OpenAI的邏輯，就是用GeneBench-Pro當裁判，定義“什麼是好的AI4S”，再用專用模型GPT-Rosalind當運動員，去衝擊高分。除了這次最新發布的GeneBench-Pro，OpenAI早在四個月前，就推出了GPT-Rosalind，這個模型專門做生物推理微調，以研究預覽版形式向美國合格企業客戶開放，需通過安全審查。Google DeepMind則握著獨一無二的王牌。它擁有AlphaFold、AlphaGenome等基礎科學模型，均為自有專有資產，並與Gemini for Science深度捆綁，整合30多個生命科學數據庫。關鍵優勢在於，其他玩家只能以調用工具的方式接入的模型，在Google這裡是自家的底層基礎設施。或許其他廠商能做一個更好的工作臺，或者定義更嚴苛的基準，但蛋白質結構預測的核心能力在Google手裡。在市場打法上，三家巨頭的選擇也各有不同：Anthropic走寬，靠訂閱普及化，Pro、Max、Team和Enterprise訂閱用戶均可使用Claude Science。值得一提的是，近期Anthropic還推出了$30,000 credits的資助計劃，面向50個博士後和研究生項目，申請截止7月15日，試圖在青年科學家成為獨立PI之前，先把他們鎖定在自己的工作臺裡，讓下一代科研人員養成使用Claude Science的學術習慣。OpenAI走窄，標準公開，允許更多人入局使用，但模型封閉，靠企業門禁建立門檻。Google走深，靠專有資產構築壁壘，模型即平臺，越用越深，越深越離不開。三套打法，其實對應了三種不同的思路和風險。Anthropic賭天花板短期撞不穿，先用工程化把工作流鋪開，核心風險在於模型突破萬一提前到來，或許會淪為只能做排列組合的工具箱。OpenAI賭天花板遲早會破，先佔住標準等模型能力追上來，但這種“自封裁判身份”的做法，存在不被科學界買賬的可能。Google賭天花板之上還有一層——誰掌握了基礎模型的源頭，誰就永遠有牌可打，壁壘確實夠高，但生態相對封閉。三家各有籌碼，各有盲區，沒有一家拿到了必勝的手牌，但它們都在同一時間窗口裡，把自己手上的籌碼一次性推上了桌。目前來看，勝負難以預測，至少頭部客戶尚未被任何一家鎖定：製藥巨頭Novo Nordisk同時出現在Anthropic（Claude Science案例客戶）和OpenAI（Rosalind早期合作伙伴）的名單裡。同一家甲方，正在並行試用多家方案，意味著市場還在開放競爭期，沒有哪一家的工具鏈已經強到讓科學家願意把完整workflow遷移上去。AI4S的終局，大概率不會被任何一家巨頭單獨決定。當三大玩家在同一天撞上天花板，它們不約而同地選擇了入局，但突圍的方向還沒有共識。真正的答案仍在科學家手中——他們如何在數據主權、學術獨立性和研究效率之間取捨，又將信任的一票投給誰。這個答案，可能比任何技術參數都更能決定終局。有關AI4S的更多進展與行業觀點，歡迎添加雷峰網作者微信 LorraineSummer 交流討論。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

15 小時前閱讀分析

何夕2077生成式AI

解耦邏輯解決大模型衝突

AI資訊日報｜解耦邏輯解決大模型衝突解耦邏輯解決大模型衝突。該研究設計了解耦衝突分析框架。該系統 �� 將複雜的衝突上下文拆解為推理圖譜。算法藉助強化學習策略 (๑•̀ㅂ•́) 持續優化內在邏輯。最終7B模型的判定成功率超越了強大的GPT-5.1。

17 小時前閱讀分析

何夕2077生成式AI

EvoPI框架正式面世

AI資訊日報｜EvoPI框架正式面世 EvoPI框架正式面世。一項醫學推理對齊研究近日公開發布。該機制能讓多模態模型在��中實現完全自主學習。其核心的演進原則開源代碼也已公佈在社區。動態進化監管框架讓測試指標最高提升了二四點六。這為智能醫療診斷提供了極其重要的落地參考。

17 小時前閱讀分析

相關文章

Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車

全球首份大語言模型安全防範能力測評報告在北京發佈

十年ICML，十次思想浪潮，當AI開始問“為誰而算”｜ICML2026

Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」

解耦邏輯解決大模型衝突

EvoPI框架正式面世