百度開源3B模型Unlimited OCR:5天Star破萬,刷新長文檔解析紀錄
重點摘要
百度開源3B參數端到端OCR模型Unlimited OCR,專攻書籍論文等長文檔。項目上線5天GitHub Star破萬,登頂四項趨勢榜。技術上,推理激活約570M參數,創新引入Reference Sliding Window Attention機制,突破逐頁拼接限制,支持數十頁一次性連續解析,大幅提升長文檔處理效率。
### 百度開源 Unlimited OCR 模型:5 天 Star 破萬,長文檔解析迎來新突破
百度近日正式開源了一款名為 **Unlimited OCR** 的端到端光學字元辨識模型,參數量僅 3B(30 億),卻在 GitHub 上線短短 5 天內累積超過 10,000 顆星,迅速登頂四項趨勢榜。這款模型專為書籍、論文等長文檔設計,號稱能突破傳統 OCR 的逐頁拼接限制,實現一次性連續解析數十頁內容,引發開發者與學術社群的高度關注。
### 技術亮點:輕量架構與長文檔適配
Unlimited OCR 的關鍵技術創新在於其提出的 **Reference Sliding Window Attention(參考滑動窗口注意力機制)**。傳統 OCR 在處理多頁長文檔時,往往需先逐頁辨識再手動拼接,不僅耗時,還容易因頁面邊界導致上下文斷裂。Unlimited OCR 透過此機制,讓模型在推理時能「記住」前幾頁的視覺與語義資訊,僅需約 570M 參數(實際激活參數)即可完成數十頁的連續解析。這種「以小搏大」的設計,大幅提升了長文檔處理效率,同時降低對硬體資源的需求。
### 開源背後的戰略意義
百度選擇開源這款 3B 參數模型,並非偶然。在大型語言模型(LLM)競爭白熱化的當下,OCR 作為數位化基礎工具,長期被美國、日本等國家的商用方案主導。百度藉由開源策略,不僅能快速累積社群回饋,更可讓台灣、中國大陸等地的中文開發者直接取得高效、免費的長文檔辨識工具。這對學術研究(如古籍數位化、論文自動摘要)及企業應用(如合約審查、報表自動化)均具備極大誘因。
### 對現有 OCR 生態的潛在影響
長文檔 OCR 一直是業界痛點。過去,要處理一本 300 頁的書,通常需要先逐頁掃描、辨識,再透過後處理演算法校對排版。Unlimited OCR 的出現,可能改寫這個流程——開發者只需將整份 PDF 直接輸入模型,即可得到結構化的文字輸出。這不僅能節省 80% 以上的處理時間,更讓那些依賴頁碼來定位資訊的應用(如學術引用清單提取)變得更加直觀。若未來社群能基於此模型發展出中文古文、數學公式等特殊領域的微調版本,衝擊力將更加顯著。
### 讀者可關注的後續發展
目前 Unlimited OCR 的 GitHub 專案已附上預訓練權重與推理範例,但尚未提供完整的訓練腳本。接下來的幾個焦點包括:
1. **多語言支援**:3B 模型能否在繁體中文、日文、歐洲語言上維持同樣表現?
2. **部署便利性**:是否會推出 ONNX、TensorRT 等加速版本,讓邊緣裝置(如手機、掃描機)也能離線運作?
3. **社群衍生專案**:開發者可能基於此模型開發筆記自動整理、PDF 問答系統等應用。
建議對文檔處理有興趣的讀者,可以立即下載模型試用,並關注百度在 HuggingFace 上釋出的後續版本。若你正苦於處理大量掃描論文或歷史文獻,Unlimited OCR 或許正是你等待的開源利器。
Related
相關文章

CVPR 2026最熱方向,被一家杭州團隊率先跑進了端側!
response: 杭州團隊在CVPR 2026熱門方向上取得突破,繼VLM-R1之後,推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。</think>: 杭州團隊在CVPR 2026熱門方向上取得突破,繼VLM-R1之後,推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。 response: 杭州團隊在CVPR 2026熱門方向上取得突破,繼VLM-R1之後,推出了全球首個端側流式多模態模型。這項進展讓該技術率先在終端設備上實現應用。相關成果展現了端側AI領域的最新發展動向。

Engram創始人:模型再大,記不住也是白搭
這篇消息聚焦「Engram創始人:模型再大,記不住也是白搭」。原始導語提到:模型沒記性,提示詞再好也沒用。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Mistral AI 推出 OCR 4 模型:支持 170 種語言,輸出更受人類青睞
這篇消息聚焦「Mistral AI 推出 OCR 4 模型:支持 170 種語言,輸出更受人類青睞」。原始導語提到:Mistral OCR 4 基礎 API 調用定價為每千頁 4 美元,批處理方式可享受 50% 優惠;文檔人工智能定價則是每千頁 5 美元。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

大模型最後的瘋狂:GPT-5.6深夜遭曝光,為什麼2026下半場成了“AI檢測AI”的絞肉機?
這篇消息聚焦「大模型最後的瘋狂:GPT-5.6深夜遭曝光,為什麼2026下半場成了“AI檢測AI”的絞肉機?」。原始導語提到:卷無可卷的 OpenAI:GPT-5.6 的深夜自救 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

“現代 AI 九成突破都來自我們!”面對核心團隊被挖,谷歌 DeepMind 掌門人的回應挺硬
谷歌 DeepMind 掌門人面對核心團隊遭挖角時強硬回應,聲稱現代 AI 九成突破都來自他們。同時文章探討為何擁有萬億參數的大型語言模型,仍無法理解愛因斯坦在休息時構思出的相對論等基礎科學理論。
Adobe宣佈收購視頻與圖像AI模型開發商Topaz Labs,深化Firefly生態佈局
Adobe正式宣佈收購專注圖像視頻增強AI二十餘年的Topaz Labs,將其併入創意業務。此舉意在強化專業影像修復與端側優化。Topaz曾獲艾美獎,近期推出視頻放大模型“Astra”與圖像修飾模型“Wonder”,並在消費級GPU高效運行上取得進展。