fbpx

為掃描的 PDF 文件添加了一個 OCR 文字層,使它們能夠被搜尋到

Contents

這種 PDF OCR 的套件有很多,為什麼這位開發者還是要開發類似功能的開源套件?

可以看一下這位開發者的開發動機

我在網上搜索了一個免費的命令列工具來OCR PDF檔案。我找到了許多,但沒有一個是真正令人滿意的。

  • 要麼是生成的 PDF 檔案在影像下有錯位的文字(使得複製/貼上不可能)
  • 或者是他們沒有處理好口音和多語言的字元
  • 或者他們改變了嵌入圖片的解析度
  • 或者他們生成了大得離譜的PDF檔案
  • 或者他們在嘗試OCR時崩潰了
  • 或者他們沒有產生有效的PDF檔案
  • 最重要的是,它們都沒有產生PDF/A檔案(專門用於長期儲存的格式)

主要功能特性

  • 從一個普通的 PDF 生成一個可搜尋的 PDF/A 檔案
  • 將 OCR 文字準確地放在影象下面,以方便複製/貼上
  • 保持原始嵌入影象的準確解析度
  • 在可能的情況下,將 OCR 資訊作為一個 “無損 “操作插入,而不破壞任何其他內容
  • 最佳化 PDF 影象,產生的檔案通常比輸入檔案小
  • 如果要求,在執行 OCR 之前,對影象進行歪斜處理( deskews )和/或清理
  • 驗證輸入和輸出檔案
  • 在所有可用的 CPU 核心上分配工作
  • 使用 Tesseract OCR 引擎來識別 100 多種語言
  • 適當擴展以處理數千頁的檔案
  • 在數以百萬計的PDF上進行了實戰測試

專案網址

不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

支持 Soft & Share

❤️您應該有留意到,我們的網頁並不會出現干擾人的跳出煩人的廣告或是在內容中嵌入廣告,因為我們發現這樣對閱讀網頁的內容體驗真的是不好!

如果您覺得我們提供的內容服務還不錯,歡迎透過對以下產品/服務的購買投資來支持本站的營運走得更遠

如果暫時還不需要以下的付費服務,幫我們把這個網站分享給有需要的朋友,您的小小舉動會對 Soft & Share 有莫大的幫助!感謝您的支持!

🎈如果您點選優惠連結後,還是沒有看到優惠價格,請將瀏覽器的 cookie 清除 ( 清除 udemy 網站的就可以了 ),然後重新點選優惠連結並登入 Udemy 就可以了


不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

Comments are closed.

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: