圖片轉文字( OCR )的開源引擎與應用的 9 個開源專案介紹

這是開源報報訂閱者的 Bonus 服務,小編每天整理開源報報發現許多開源工具是相輔相成的,所以接下來會將這些開源工具整理成一篇主題報導,可以更方便一起搭配使用這些開源工具來增加生產力。

策展摘要說明

圖片轉文字( OCR )被廣泛使用在許多軟體中,最知名的應用莫過於 Google 翻譯 App 中的照相翻譯功能,這個開源專案主題報導除了包含圖片轉文字( OCR ) 開源引擎,也包含了使用 OCR 技術所開發出來的開源應用程式,想要在你自己的專案或是 App 中整合 OCR 功能是一個不錯的參考學習資源!

🌳 主題報導的內容會隨著發現新的開源專案持續更新,想要追蹤這篇主題報導的變更紀錄,可到這篇 po 文按讚追蹤

✍ 以主題方式整理出相關的開源專案 – 開源報報主題報導

OCR 引擎

完全使用 Javascript 開發的 OCR ( 文字辨識 ) 引擎- 支援超過 100 種語言

也有支援繁體中文,如果你是 C/C++ 開發者可以參考 C/C++ 版本 https://github.com/tesseract-ocr/tesseract

支援包括中文、日文、韓文和泰文在內的40多種語言的即用 OCR

使用 Keras CRNN 辨識模型做 OCR ( 圖形到文字 )

這是一個使用已釋出的 CRAFT 文字辨識模型和 Keras CRNN 實現所包裝的版本。 它為訓練文字辨識和 OCR 管道提供了一個高階的 API。

支援深度學習和傳統演算法的機器學習框架

NeoML 是一個端到端的機器學習框架,允許你建構、訓練和部署機器學習模型。 該框架被 ABBYY 工程師用於電腦視覺和自然語言處理任務,包括影像預處理、分類、文件佈局分析、 OCR 以及從結構化和非結構化文件中提取資料。

主要特點:

  • 支援超過100 層類型的神經網路
  • 傳統的機器學習: 20 個以上演算法(分類、迴歸、聚類等)
  • CPU 和 GPU 支援,快速推理
  • 支援 ONNX
  • 語言: C++ ,Java,Objective-C
  • 跨平台: 同樣的程式碼可以在 Windows、 Linux、 macOS、 iOS 和 Android 上執行

基於 PaddlePaddle 的超棒 OCR 工具套件

860萬超輕量級預訓練模型,支援在伺服器,行動,嵌入式和IoT裝置之間進行訓練和部署

OCR 應用

糰子翻譯器 —— 個人興趣製作的一款基於OCR技術的翻譯器

為什麼想製作這個:

本身是個vnr翻譯軟體的忠實使用者,但是遇到某些遊戲無法提取文字,並且沒有找到有熱心人公開發布的特殊碼,於是某天研究如何提取特殊碼研究到了深夜還是失敗了。然後發現有OCR(文字識別)技術的存在,下載了很多已經有的OCR翻譯器,但是使用體驗都覺得很不方便,於是萌生了自己製作一個自己喜歡的翻譯器的想法

簡單地說明:

  • 原理:該軟體為OCR翻譯器,OCR利用了百度AI的文字識別,原理為通過識別圖片上的外文文字並進行翻譯;
  • 適用範圍:包括但不限於,galgame、rpg遊戲、模擬器遊戲、外文影片、網頁遊戲、pdf圖片版文獻等等,一切能顯示在電腦螢幕上的文字;
  • 翻譯介面:百度、騰訊、彩雲、google等等共12個翻譯源;
  • 譯文語種:日語、英語、韓文(會考慮加入其它的,但是目前必要性不大);
  • 其它詳細情況參見軟體版內配置的使用教程;

功能流程:

  • 通過截圖的方式獲取需要翻譯的螢幕區域座標;
  • 通過座標截圖(可自動),並發送至百度AI的文字識別介面;
  • 獲取識別好的文字後傳送給百度、騰訊、彩雲等翻譯介面;
  • 結果反饋至GUI介面;

shotlooter – 利用 OCR 檢查上傳到 prnt.sc 的影像檔是否含有敏感資料

這個工具使用 Python 開發

應用 OCR 和影像處理方法,Shotlooter 工具可以發現螢幕截圖中的敏感資料,這些資料通過 LightShot 軟體上傳到 https://prnt.sc/ 。

基於 React Native ,使用機器學習和 OpenCV 技術進行影像處理的收據掃描 App

可以將掃描到的收據影像變成文字 ( OCR ),雖然是用 React Native ,但是看一下它的開發環境設定,目前 build 出來的 app 只有支援 Android

作文殺手

EssayKiller 是基於 OCR、NLP 領域的最新模型所建構的生成式文字創作 AI 框架,目前第一版 finetune 模型針對高考作文(主要是議論文),可以有效生成符合人類認知的文章,多數文章經過測試可以達到正常高中生及格作文水平。

框架說明

  • 基於EAST、CRNN、Bert和GPT-2語言模型的高考作文生成AI
  • 支援bert tokenizer,當前版本基於clue chinese vocab
  • 17億參數多模組異構深度神經網路,超2億條預訓練資料
  • 線上點選即用的文字生成效果demo:17億參數作文殺手
  • 端到端生成,從試卷識別到答題卡輸出一條龍服務

模型結構

整個框架分為EAST、CRNN、Bert、GPT-2、DNN 5個模組,每個模組的網路單獨訓練,參數相互獨立。infer過程使用pipeline串聯,通過外接裝置直接輸出到答題卡。

也許你會有興趣

不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

Comments are closed.

Powered by WordPress.com.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading