百度開源3B模型Unlimited OCR:5天Star破萬,刷新長文檔解析紀錄

2026年6月29日 07:315900 次瀏覽

重點摘要

百度開源3B參數端到端OCR模型Unlimited OCR,專攻書籍論文等長文檔。項目上線5天GitHub Star破萬,登頂四項趨勢榜。技術上,推理激活約570M參數,創新引入Reference Sliding Window Attention機制,突破逐頁拼接限制,支持數十頁一次性連續解析,大幅提升長文檔處理效率。

站內 AI 整理稿

### 百度開源 Unlimited OCR 模型:5 天 Star 破萬,長文檔解析迎來新突破

百度近日正式開源了一款名為 **Unlimited OCR** 的端到端光學字元辨識模型,參數量僅 3B(30 億),卻在 GitHub 上線短短 5 天內累積超過 10,000 顆星,迅速登頂四項趨勢榜。這款模型專為書籍、論文等長文檔設計,號稱能突破傳統 OCR 的逐頁拼接限制,實現一次性連續解析數十頁內容,引發開發者與學術社群的高度關注。

### 技術亮點:輕量架構與長文檔適配

Unlimited OCR 的關鍵技術創新在於其提出的 **Reference Sliding Window Attention(參考滑動窗口注意力機制)**。傳統 OCR 在處理多頁長文檔時,往往需先逐頁辨識再手動拼接,不僅耗時,還容易因頁面邊界導致上下文斷裂。Unlimited OCR 透過此機制,讓模型在推理時能「記住」前幾頁的視覺與語義資訊,僅需約 570M 參數(實際激活參數)即可完成數十頁的連續解析。這種「以小搏大」的設計,大幅提升了長文檔處理效率,同時降低對硬體資源的需求。

### 開源背後的戰略意義

百度選擇開源這款 3B 參數模型,並非偶然。在大型語言模型(LLM)競爭白熱化的當下,OCR 作為數位化基礎工具,長期被美國、日本等國家的商用方案主導。百度藉由開源策略,不僅能快速累積社群回饋,更可讓台灣、中國大陸等地的中文開發者直接取得高效、免費的長文檔辨識工具。這對學術研究(如古籍數位化、論文自動摘要)及企業應用(如合約審查、報表自動化)均具備極大誘因。

### 對現有 OCR 生態的潛在影響

長文檔 OCR 一直是業界痛點。過去,要處理一本 300 頁的書,通常需要先逐頁掃描、辨識,再透過後處理演算法校對排版。Unlimited OCR 的出現,可能改寫這個流程——開發者只需將整份 PDF 直接輸入模型,即可得到結構化的文字輸出。這不僅能節省 80% 以上的處理時間,更讓那些依賴頁碼來定位資訊的應用(如學術引用清單提取)變得更加直觀。若未來社群能基於此模型發展出中文古文、數學公式等特殊領域的微調版本,衝擊力將更加顯著。

### 讀者可關注的後續發展

目前 Unlimited OCR 的 GitHub 專案已附上預訓練權重與推理範例,但尚未提供完整的訓練腳本。接下來的幾個焦點包括:

1. **多語言支援**:3B 模型能否在繁體中文、日文、歐洲語言上維持同樣表現?

2. **部署便利性**:是否會推出 ONNX、TensorRT 等加速版本,讓邊緣裝置(如手機、掃描機)也能離線運作?

3. **社群衍生專案**:開發者可能基於此模型開發筆記自動整理、PDF 問答系統等應用。

建議對文檔處理有興趣的讀者,可以立即下載模型試用,並關注百度在 HuggingFace 上釋出的後續版本。若你正苦於處理大量掃描論文或歷史文獻,Unlimited OCR 或許正是你等待的開源利器。

Related

相關文章

量子位電腦視覺

CVPR 2026最熱方向,被一家杭州團隊率先跑進了端側!

response: 杭州團隊在CVPR 2026熱門方向上取得突破,繼VLM-R1之後,推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。</think>: 杭州團隊在CVPR 2026熱門方向上取得突破,繼VLM-R1之後,推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。 response: 杭州團隊在CVPR 2026熱門方向上取得突破,繼VLM-R1之後,推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。

1 天前

Engram創始人:模型再大,記不住也是白搭

這篇消息聚焦「Engram創始人:模型再大,記不住也是白搭」。原始導語提到:模型沒記性,提示詞再好也沒用。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 天前
IT之家電腦視覺

Mistral AI 推出 OCR 4 模型:支持 170 種語言,輸出更受人類青睞

這篇消息聚焦「Mistral AI 推出 OCR 4 模型:支持 170 種語言,輸出更受人類青睞」。原始導語提到:Mistral OCR 4 基礎 API 調用定價為每千頁 4 美元,批處理方式可享受 50% 優惠;文檔人工智能定價則是每千頁 5 美元。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 天前