讓大模型從“一問一答”走向“邊看邊說”，京東開源實時視頻視覺語言交互模型 JoyAI-VL-Interaction

2026年6月22日 16:40

重點摘要

JoyAI-VL-Interaction 支持攝像頭、直播流、監控流等多種視頻輸入，也支持語音輸入輸出、可視化界面、長期記憶、後臺模型接口和 vLLM 部署方案。

站內 AI 整理稿

### 讓大模型從「一問一答」走向「邊看邊說」：京東開源即時視覺語言模型 JoyAI-VL-Interaction

京東近日開源了一款名為 **JoyAI-VL-Interaction** 的視覺語言交互模型，這項技術打破了傳統大語言模型僅能處理靜態文字或圖片的限制，讓 AI 能夠直接「觀看」即時影片，並在觀看過程中進行語音對話。這項突破標誌著多模態 AI 從「被動問答」正式跨入「主動感知與即時互動」的新階段。

根據公開資訊，JoyAI-VL-Interaction 的核心亮點在於它對多種影片來源的靈活支援。無論是攝影機的即時畫面、直播平台的串流內容，還是監控系統的影片訊號，模型都能夠即時接收並處理。此外，它還整合了語音輸入與輸出功能，讓使用者可以直接用說話的方式與模型互動，不必依賴鍵盤；搭配可視化介面，整個操作體驗更接近人類與人類之間的「邊看邊聊」。

從技術層面來看，這款模型並非單純的「看圖說故事」，而是具備**長期記憶能力**，能夠記住過去對話或影片中的關鍵資訊，並在後續互動中參考。此外，它也開放了後端模型接口，並支援 **vLLM 部署方案**，這意味著開發者可以將模型整合進自己的系統或產品中，甚至進行高效能的推論部署，降低實務上的應用門檻。

### 背景脈絡：從靜態問答到動態場景理解

近年來，大型語言模型（LLM）的發展主軸多集中在文字生成、知識問答與程式碼輔助上；即便出現了多模態模型（如 GPT-4V、Gemini），也多以靜態圖片或短影片處理為主。真正的「即時影片串流理解」之所以困難，在於模型需要同時處理時間維度上的連續畫面、音訊以及其他動態變化，對算力與架構設計的挑戰極高。

京東此次開源的 JoyAI-VL-Interaction，正是針對這項痛點設計。它讓模型不再只是「等待使用者輸入一句話後才回答」，而是能夠在觀看影片的過程中，主動感知畫面變化，並根據使用者的語音提問或即時場景給出回饋。這樣的技術方向，更貼近人類真實的溝通方式——我們在看影片時，本來就會邊看邊說、邊說邊問。

### 可能影響：產業應用場景的全面重構

這項模型開源後，最直接的影響將落在需要「即時視覺判斷與口語互動」的領域。例如在**電商直播**中，模型可以即時辨識主播手上展示的商品，並回答觀眾關於價格、材質、庫存等問題；在**智慧監控**場景中，系統能一邊觀看監視器畫面，一邊以語音報告異常事件；在**視障輔助**應用上，裝置可透過攝影機即時辨識環境，並用語音說出「前方有階梯」、「右側有水杯」等資訊。

此外，由於模型支援長期記憶與後端接口，企業也能將其嵌入客服系統、教育平台或工業檢查流程中。舉例來說，工廠的品管人員可以對著即時直播畫面提問：「這批產品表面是否有刮痕？」模型便能根據長時間的觀看記錄給出判斷，甚至追蹤產線上的變化趨勢。

### 讀者可關注的後續：開源生態與實作門檻

對於開發者與技術社群而言，JoyAI-VL-Interaction 的開源意味著可以**自行下載、調整與部署**。尤其是它支援 vLLM 部署方案，這是一套高效能的推理加速框架，能大幅降低模型在本地或雲端運行的延遲。讀者可以關注京東官方或相關 GitHub 倉庫後續釋出的模型權重、範例程式碼以及使用文件。

另一個值得觀察的重點是**多語言與台灣本地化支援**。這款模型目前是否完整支援繁體中文語音辨識與口語表達，將影響其在台灣市場的落地速度。建議有興趣的開發者，可以嘗試在本地環境跑一次示範，測試模型對台語、國語夾雜或特定領域術語的辨

原始來源：IT之家 ↗

查看原始來源

36氪模型更新

開弓沒有回頭箭， Fable5 封鎖後 Claude 繼續踩油門：最新 Mythos 已完成訓練，Sonnet 5最快下週上線

{"id":"952b4854-6517-45fa-bbcf-981afca341a4","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":146,"output_tokens":200,"total_tokens":346}}

剛剛閱讀分析

鈦媒體模型更新

Prompt已死，Loop Engineering成了硅谷AI圈新頂流

Prompt Engineering不再是主流，Loop Engineering已成為矽谷AI圈的最新熱門趨勢。這項新技術專注於設計反饋循環，讓AI模型能持續自我優化與修正。業界認為，Loop Engineering將取代傳統提示工程，成為提升AI效能的核心方法。

剛剛閱讀分析

IT之家模型更新

百川發佈新一代醫療增強大模型 M4：登頂 OpenAI 醫療評測，超越 GPT-5.5

該模型在 HealthBench 及其 Hard、Professional 三個榜單上同時位列世界第一，全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro，幻覺率低至 3.3%。

剛剛閱讀分析

36氪模型更新

微軟也燒不起 Token ，該 DeepSeek 上位了

這篇消息聚焦「微軟也燒不起 Token ，該 DeepSeek 上位了」。原始導語提到：免費又無限的 AI 蜜月期，正在結束從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 小時前閱讀分析

36氪模型更新

Fable 5準備復活？Anthropic聯創：我們徹底低估了Scaling

{"id":"76e8a120-147d-400f-8380-d1ee13ed9f43","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":138,"output_tokens":200,"total_tokens":338}}

2 小時前閱讀分析

雷峰網模型更新

把電影工業裝進口袋，大疆十二年的孤獨與喧囂

消費電子行業有一條鐵律：任何一個被市場驗證的品類，都會在18個月內擠滿對手。參數對壘、價格血洗、概念營銷——一套組合拳打完，藍海變紅海。但Pocket相機是個例外。這個品類誕生多年，大疆始終是唯一的玩家。沒有挑戰者，沒有跟隨者，甚至連像樣的模仿者都寥寥無幾。直到去年年底，手機廠商們才忽然集體“想起”這條賽道，開始組建項目團隊；影石、浩瀚等影像設備廠商的Pocket項目也陸續浮出水面。為什麼？是別人不想做，還是做不了？近日，大疆在北京舉行“大疆光影十二載暨手持影像技術分享會”，首次系統回顧了大疆影像十二年的發展歷程，並展示了大疆影像最新的技術結晶——Osmo Pocket 4P。在這場技術分享會上，答案被一層層剝開。不是靈光一現，而是十年一劍回溯大疆的歷史，你會發現Pocket系列的基因圖譜異常清晰：它不是產品經理在某個靈感迸發的下午想出來的“爆品”，而是大疆用整整十二年時間在技術河流裡反覆試錯、反覆沉澱之後的產物。這條河流發源於天空。2013年，Phantom 1把飛控、圖傳、三軸雲臺裝進一個到手即飛的機器裡。那顆在空中對抗強風的雲臺，成了大疆所有增穩技術的“原爆點”。高頻震動、姿態劇變、風力撕扯——大疆在極端的天空環境裡練出了一身基本功：用精密機械和控制算法，死守畫質的底線。彼時，大疆的工程師們在海外的極客論壇發現一個很有意思的現象：一些腦洞大開的創作者，通過3D打印自制支架，拆解無人機禪思雲臺改裝為地面手持拍攝器材。用戶自發改裝的行為，讓大疆研發團隊敏銳捕捉到了行業痛點：地面拍攝同樣迫切需要低成本、高性能的機械增穩方案。大疆由此開啟了從“空中影像”向“地面手持影像”的技術平移之路。2014 年，大疆開啟了手持影像的新紀元，標誌性產品 Ronin 如影一代正式亮相，把經過高空強風環境驗證的無人機三軸增穩算法落地專業手持穩定器，改變了傳統斯坦尼康笨重、上手門檻極高的行業現狀

3 小時前閱讀分析

相關文章

開弓沒有回頭箭， Fable5 封鎖後 Claude 繼續踩油門：最新 Mythos 已完成訓練，Sonnet 5最快下週上線

Prompt已死，Loop Engineering成了硅谷AI圈新頂流

百川發佈新一代醫療增強大模型 M4：登頂 OpenAI 醫療評測，超越 GPT-5.5

微軟也燒不起 Token ，該 DeepSeek 上位了

Fable 5準備復活？Anthropic聯創：我們徹底低估了Scaling

把電影工業裝進口袋，大疆十二年的孤獨與喧囂