fbpx

為掃描的 PDF 文件添加了一個 OCR 文字層,使它們能夠被搜尋到

這種 PDF OCR 的套件有很多,為什麼這位開發者還是要開發類似功能的開源套件?

可以看一下這位開發者的開發動機

我在網上搜索了一個免費的命令列工具來OCR PDF檔案。我找到了許多,但沒有一個是真正令人滿意的。

  • 要麼是生成的 PDF 檔案在影像下有錯位的文字(使得複製/貼上不可能)
  • 或者是他們沒有處理好口音和多語言的字元
  • 或者他們改變了嵌入圖片的解析度
  • 或者他們生成了大得離譜的PDF檔案
  • 或者他們在嘗試OCR時崩潰了
  • 或者他們沒有產生有效的PDF檔案
  • 最重要的是,它們都沒有產生PDF/A檔案(專門用於長期儲存的格式)

主要功能特性

  • 從一個普通的 PDF 生成一個可搜尋的 PDF/A 檔案
  • 將 OCR 文字準確地放在影象下面,以方便複製/貼上
  • 保持原始嵌入影象的準確解析度
  • 在可能的情況下,將 OCR 資訊作為一個 “無損 “操作插入,而不破壞任何其他內容
  • 最佳化 PDF 影象,產生的檔案通常比輸入檔案小
  • 如果要求,在執行 OCR 之前,對影象進行歪斜處理( deskews )和/或清理
  • 驗證輸入和輸出檔案
  • 在所有可用的 CPU 核心上分配工作
  • 使用 Tesseract OCR 引擎來識別 100 多種語言
  • 適當擴展以處理數千頁的檔案
  • 在數以百萬計的PDF上進行了實戰測試

專案網址

支持 Soft & Share

如果您覺得我們提供的內容服務還不錯,歡迎透過對以下產品/服務的購買投資來支持本站的營運走得更遠

如果暫時還不需要以下的付費服務,幫我們把這個網站分享給有需要的朋友,您的小小舉動會對 Soft & Share 有莫大的幫助!感謝您的支持!

🎈如果您點選優惠連結後,還是沒有看到優惠價格,麻煩您將瀏覽器的 cookie 清除 ( 清除 udemy 網站的就可以了 ),然後重新點選優惠連結就可以了


不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

Comments are closed.

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: