谷歌貼身對標字節：最新輕量版 Nano Banana 2 四秒出圖，單張僅 0.034 美元，還能直出視頻

2026年7月1日 17:43

重點摘要

谷歌最新發布輕量版 Nano Banana 2，能在四秒內生成圖片，單張成本僅 0.034 美元，價格低於字節跳動的競品。該模型在出圖品質與延遲上實現雙重反超，並具備直接生成影片的功能。

站內 AI 整理稿

### 重點整理：谷歌輕量模型 Nano Banana 2 強勢登場

谷歌近期推出全新輕量級 AI 模型「Nano Banana 2」，主打極速生成與低成本優勢。根據官方資訊，該模型能在四秒內產出一張圖片，單張生成成本僅約 0.034 美元，並且支援直接輸出影片。這款模型被視為直接對標字節跳動旗下同類產品，在價格、生成速度與畫質上均實現「雙反超」，展現谷歌在輕量生成式 AI 領域的野心。

### 背景脈絡：輕量模型市場競爭白熱化

近年來，AI 圖像與影片生成技術快速普及，但高昂的運算成本與延遲一直是商用化的瓶頸。字節跳動先前推出的輕量模型以低價與快速生成聞名，迅速搶佔中小型開發者與內容創作者市場。谷歌此次推出的 Nano Banana 2，正是針對這塊需求精準切入。不同於旗艦級模型追求極致畫質，輕量模型更注重效率與成本平衡，適合大量產出、即時互動的場景，例如社群媒體貼文、廣告素材、原型設計等。

### 可能影響：價格戰與技術門檻再降低

Nano Banana 2 的定價策略極具侵略性，單張 0.034 美元不僅低於字節跳動的現有方案，更可能迫使其他競爭對手跟進降價。這將進一步降低 AI 生成內容的進入門檻，讓個人創作者與小型團隊也能負擔高品質的視覺素材。同時，四秒出圖與直出影片的能力，意味著即時互動應用（如直播特效、即時設計反饋）將更為可行。長期來看，這可能加速傳統設計與影音製作流程的數位轉型，但也引發對版權與原創性的新一輪討論。

### 讀者可關注的後續：實測表現與生態整合

目前官方僅釋出初步規格與價格，實際生成品質、延遲穩定性、影片長度與解析度等細節仍有待第三方測試。讀者應關注以下幾點：第一，Nano Banana 2 是否支援繁體中文提示詞與台灣常見的場景風格；第二，谷歌是否會將此模型整合進現有服務（如 Google Cloud、Colab 或 Bard），提供無縫開發體驗；第三，字節跳動是否會推出升級版反制，以及開源社群能否複製類似成果。此外，隨著輕量模型普及，監管機構對 AI 生成內容的標示與責任歸屬也可能成為後續焦點。

### 技術亮點：輕量化架構與多模態輸出

Nano Banana 2 的核心優勢在於其輕量化架構，能在不犧牲太多畫質的前提下大幅降低運算資源。據了解，該模型採用蒸餾技術與量化壓縮，使參數量遠小於旗艦模型，卻仍能維持穩定的生成品質。更值得留意的是，它不僅能生成靜態圖像，還可直接輸出短影片，這在輕量模型中較為少見，顯示谷歌在時序建模與壓縮演算法上取得突破。對於需要快速迭代的動態內容（如社群限時動態、產品展示短片），這項功能極具吸引力。

### 市場定位：瞄準開發者與內容創作者

谷歌將 Nano Banana 2 定位為「開發者友善」的模型，預計透過 API 形式提供，並搭配簡潔的 SDK 與文件。這與字節跳動主打「一站式創作平台」的策略略有不同：谷歌更強調靈活整合，讓開發者能自訂工作流程；字節則傾向提供封閉但易用的編輯器。兩種路線各有優劣，但 Nano Banana 2 的低成本與低延遲，可能吸引原本因價格卻步的獨立開發者，進而擴大 AI 生成內容的應用場景，例如電商商品圖批量生成、遊戲素材自動化、教育互動教材等。

### 潛在挑戰：品質穩定性與倫理議題

儘管價格與速度亮眼，輕量模型在複雜場景、光影細節或人臉生成上仍可能不如旗艦模型。若 Nano Banana 2 的實際輸出出現明顯瑕疵，將影響開發者信心。此外，低成本生成也意味著不當內容（如深偽、侵權素材）更容易被大量產出，谷歌需要建立有效的審查機制與浮水印標記。讀者可觀察谷歌是否推出類似「SynthID」的內容溯源工具，以及是否與台灣在地機構合作訓練模型，以符合本地法規與文化敏感度。

### 結語：AI 生成進入「平價即時」新階段

Nano Banana 2 的問世，象徵 AI 圖像與影片生成從「高成本專業工具」轉向「平價即時服務」。對於台灣的內容創作者、新創公司與數位行銷業者而言，這可能帶來新的效率紅利，但也需留意技術依賴與版權風險。建議讀者持續追蹤谷歌的正式發布時程、API 定價細節，以及首批使用者的實測報告，才能判斷這款模型是否真正適合自己的應用場景。

原始來源：36氪 ↗

查看原始來源

智東西生成式AI

時隔4個月，谷歌Nano Banana再發新模型

這篇消息聚焦「時隔4個月，谷歌Nano Banana再發新模型」。原始導語提到：4秒生成1K圖片，僅需0.23元。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

全天候科技生成式AI

美團開源萬億參數大模型 LongCat-2.0，五萬卡國產算力全流程訓練

美團開源了萬億參數的大模型 LongCat-2.0，該模型採用五萬張國產算力卡進行全流程訓練。此模型特別強調 Agentic Coding 能力，即具備自主編碼與任務執行的特性。

剛剛閱讀分析

IT之家生成式AI

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

OpenAI 最新報告顯示，ChatGPT 全球採用率持續擴大，非英語用戶佔比已超過一半。用戶地域分佈更廣，非洲和亞洲增速最快，35 歲以上用戶群體也在擴大。工作用途中，視覺設計任務增長最快。#ChatGPT##AI#

剛剛閱讀分析

智東西生成式AI

黃仁勳的物理AI ChatGPT時刻，正被這家中國公司的“流式多模態”接棒

智東西作者 | 王涵編輯 | 漠影 “物理AI的ChatGPT時刻已經到來。” 2026年1月5日，拉斯維加斯CES展會，英偉達創始人兼CEO黃仁勳宣告AI正式進入新階段。在他看來，AI的演進可以分為四個階段：Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恆，AI才真正走出屏幕。他同時指出，要讓機器人理解物理世界，不能僅靠單一模型，而是需要建立一整套智能系統。黃仁勳描繪了未來願景，但一個問題擺在了所有人面前——物理世界的AI，到底需要什麼樣的技術能力？ AI真正走向物理世界，機器人、無人機、安防攝像頭、可穿戴設備這些場景，需要的不是回答問題，而是持續工作。物理AI最重要的，也就是主動執行的能力。 Om AI聯匯CEO兼首席科學家趙天成博士表示：“之前整個業內對通用視覺智能的關注度偏低，大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的，而且可能是更加現實、更加直接的核心技術，會更廣泛地應用到所有物理AI場景。” 通用視覺智能（General Vision Intelligence），即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動，且這一切必須在端側完成。近日發佈的VLX端側流式多模態模型系列，正是這一路徑的最新實踐。這是業界首次提出 “流式多模態” 這一全新模型架構。區別於傳統模型“採集-上傳-離線處理”的路徑，VLX系列面向物理世界中持續湧入的視頻流，實現毫秒級實時感知，並首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。一、三個模型、三層能力、一條鏈路什麼是通用視覺智能（General Vision Intelligence）？ Om AI聯匯的定義是三項核心能力：持續感知（無需人工觸發）、空

1 小時前閱讀分析

AIBase生成式AI

ChatGPT全球用戶激增：非英語用戶佔比過半，全面跨越早期圈層

OpenAI報告顯示，ChatGPT全球用戶持續多元增長，年齡、性別、地域分佈更廣。非英語使用量顯著提升，超半數活躍用戶以其他語言為主，其中西班牙語、葡萄（牙語）等語言增長突出。

1 小時前4300閱讀分析

雷峰網生成式AI

獨家丨世界模型企業知天下完成天使輪融資，要做「中國版World Labs」

通向世界模型之路：生成式3DGS基模。作者丨向欣編輯丨高景輝 AI科技評論獨家獲悉，空間智能與世界模型初創公司知天下（蘇州）人工智能科技有限公司（以下簡稱“知天下”）近日已完成天使輪融資。本輪由上海眾合創投獨家投資，探針資本擔任財務顧問，資金將主要用於擴充團隊研發生成式高斯基模、開拓高斯潑濺中國內容社群的海外影響力。知天下是一家專注於高斯潑濺（3D Gaussian Splatting，簡稱3DGS）三維重建與生成技術的AI企業，於 2024 年初推出 3DGS 免費重建與發佈服務，其平臺已匯聚數萬名 3DGS 用戶，形成技術交流與內容創作社區，同時積累了高質量多視角照片數據集，近期平臺3DGS創作日均數據已超越英國SuperSplat，僅次於美國World Labs。依託已積累的PB級真實三維世界影像數據，知天下正在研發規模持續增長的生成式高斯基礎模型，用於實現三維空間推理和補全，推進AI從文本理解向三維物理世界理解的方向演進，為空間智能提供底層基礎設施。3DGS是近年來海外科技公司重點投入的技術方向之一。NVIDIA已將其集成至Omniverse及Isaac Sim平臺，李飛飛創辦的World Labs也將其作為核心數據結構。其原理是將場景表示為大量可優化的三維高斯橢球體集合，可兼顧照片級渲染質量、高效的實時渲染、以及深度學習可微特性，近年已成為具身智能、AR/VR、數字孿生和自動駕駛仿真的通用空間表示標準。創始團隊方面，知天下創始人宋寬博士，擁有北京大學兩個學士學位，馬裡蘭大學博士學位，曾獲北京中關村及蘇州等地人才項目支持。2023年，他確立3DGS與多模態、生成式AI協同發展的技術路線，並主導構建了國內最大規模的3DGS技術社區。公司首席科學家魏澤強，2019年以來持續在宋寬博士團隊工作，2025年博士畢業於北京郵電大學人工智能學院。在多視角深度學習方向曾帶領

2 小時前閱讀分析

相關文章

時隔4個月，谷歌Nano Banana再發新模型

美團開源萬億參數大模型 LongCat-2.0，五萬卡國產算力全流程訓練

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

黃仁勳的物理AI ChatGPT時刻，正被這家中國公司的“流式多模態”接棒

ChatGPT全球用戶激增：非英語用戶佔比過半，全面跨越早期圈層

獨家丨世界模型企業知天下完成天使輪融資，要做「中國版World Labs」