百度開源3B模型Unlimited OCR:5天Star破萬，刷新長文檔解析紀錄

2026年6月29日 07:315900 次瀏覽

重點摘要

百度開源3B參數端到端OCR模型Unlimited OCR，專攻書籍論文等長文檔。項目上線5天GitHub Star破萬，登頂四項趨勢榜。技術上，推理激活約570M參數，創新引入Reference Sliding Window Attention機制，突破逐頁拼接限制，支持數十頁一次性連續解析，大幅提升長文檔處理效率。

站內 AI 整理稿

### 百度開源 Unlimited OCR 模型：5 天 Star 破萬，長文檔解析迎來新突破

百度近日正式開源了一款名為 **Unlimited OCR** 的端到端光學字元辨識模型，參數量僅 3B（30 億），卻在 GitHub 上線短短 5 天內累積超過 10,000 顆星，迅速登頂四項趨勢榜。這款模型專為書籍、論文等長文檔設計，號稱能突破傳統 OCR 的逐頁拼接限制，實現一次性連續解析數十頁內容，引發開發者與學術社群的高度關注。

### 技術亮點：輕量架構與長文檔適配

Unlimited OCR 的關鍵技術創新在於其提出的 **Reference Sliding Window Attention（參考滑動窗口注意力機制）**。傳統 OCR 在處理多頁長文檔時，往往需先逐頁辨識再手動拼接，不僅耗時，還容易因頁面邊界導致上下文斷裂。Unlimited OCR 透過此機制，讓模型在推理時能「記住」前幾頁的視覺與語義資訊，僅需約 570M 參數（實際激活參數）即可完成數十頁的連續解析。這種「以小搏大」的設計，大幅提升了長文檔處理效率，同時降低對硬體資源的需求。

### 開源背後的戰略意義

百度選擇開源這款 3B 參數模型，並非偶然。在大型語言模型（LLM）競爭白熱化的當下，OCR 作為數位化基礎工具，長期被美國、日本等國家的商用方案主導。百度藉由開源策略，不僅能快速累積社群回饋，更可讓台灣、中國大陸等地的中文開發者直接取得高效、免費的長文檔辨識工具。這對學術研究（如古籍數位化、論文自動摘要）及企業應用（如合約審查、報表自動化）均具備極大誘因。

### 對現有 OCR 生態的潛在影響

長文檔 OCR 一直是業界痛點。過去，要處理一本 300 頁的書，通常需要先逐頁掃描、辨識，再透過後處理演算法校對排版。Unlimited OCR 的出現，可能改寫這個流程——開發者只需將整份 PDF 直接輸入模型，即可得到結構化的文字輸出。這不僅能節省 80% 以上的處理時間，更讓那些依賴頁碼來定位資訊的應用（如學術引用清單提取）變得更加直觀。若未來社群能基於此模型發展出中文古文、數學公式等特殊領域的微調版本，衝擊力將更加顯著。

### 讀者可關注的後續發展

目前 Unlimited OCR 的 GitHub 專案已附上預訓練權重與推理範例，但尚未提供完整的訓練腳本。接下來的幾個焦點包括：

1. **多語言支援**：3B 模型能否在繁體中文、日文、歐洲語言上維持同樣表現？

2. **部署便利性**：是否會推出 ONNX、TensorRT 等加速版本，讓邊緣裝置（如手機、掃描機）也能離線運作？

3. **社群衍生專案**：開發者可能基於此模型開發筆記自動整理、PDF 問答系統等應用。

建議對文檔處理有興趣的讀者，可以立即下載模型試用，並關注百度在 HuggingFace 上釋出的後續版本。若你正苦於處理大量掃描論文或歷史文獻，Unlimited OCR 或許正是你等待的開源利器。

原始來源：AIBase ↗

查看原始來源

量子位電腦視覺

CVPR 2026最熱方向，被一家杭州團隊率先跑進了端側！

response: 杭州團隊在CVPR 2026熱門方向上取得突破，繼VLM-R1之後，推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。</think>: 杭州團隊在CVPR 2026熱門方向上取得突破，繼VLM-R1之後，推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。 response: 杭州團隊在CVPR 2026熱門方向上取得突破，繼VLM-R1之後，推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。

1 天前閱讀分析

36氪電腦視覺

Engram創始人：模型再大，記不住也是白搭

這篇消息聚焦「Engram創始人：模型再大，記不住也是白搭」。原始導語提到：模型沒記性，提示詞再好也沒用。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 天前閱讀分析

IT之家電腦視覺

Mistral AI 推出 OCR 4 模型：支持 170 種語言，輸出更受人類青睞

這篇消息聚焦「Mistral AI 推出 OCR 4 模型：支持 170 種語言，輸出更受人類青睞」。原始導語提到：Mistral OCR 4 基礎 API 調用定價為每千頁 4 美元，批處理方式可享受 50% 優惠；文檔人工智能定價則是每千頁 5 美元。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 天前閱讀分析