圖片轉文字( OCR )的開源引擎與應用的 9 個開源專案介紹

光學字元辨識（英語：Optical Character Recognition，縮寫：OCR）是指對包含文字內容的圖像或視訊進行處理和辨識，並提取其中所包含的文字及排版資訊的過程。例如，一個常見的應用是將包含文件圖像的不可編輯狀態的 PDF 文件通過 OCR 技術辨識後，轉換為可編輯狀態的 Word 格式文件^[。( 源自 WIKIPEDIA )

圖片轉文字( OCR )被廣泛使用在許多軟體中，最知名的應用莫過於 Google 翻譯 App 中的照相翻譯功能，這個開源專案主題報導除了包含圖片轉文字( OCR ) 開源引擎，也包含了使用 OCR 技術所開發出來的開源應用程式，想要在你自己的專案或是 App 中整合 OCR 功能是一個不錯的參考學習資源！

OCR 引擎

完全使用 Javascript 開發的 OCR ( 文字辨識 ) 引擎- 支援超過 100 種語言

https://github.com/naptha/tesseract.js

也有支援繁體中文，如果你是 C/C++ 開發者可以參考 C/C++ 版本 https://github.com/tesseract-ocr/tesseract

支援包括中文、日文、韓文和泰文在內的40多種語言的即用 OCR

https://github.com/JaidedAI/EasyOCR

使用 Keras CRNN 辨識模型做 OCR ( 圖形到文字 )

https://github.com/faustomorales/keras-ocr

這是一個使用已釋出的 CRAFT 文字辨識模型和 Keras CRNN 實現所包裝的版本。它為訓練文字辨識和 OCR 管道提供了一個高階的 API。

支援深度學習和傳統演算法的機器學習框架

https://github.com/neoml-lib/neoml

NeoML 是一個端到端的機器學習框架，允許你建構、訓練和部署機器學習模型。該框架被 ABBYY 工程師用於電腦視覺和自然語言處理任務，包括影像預處理、分類、文件佈局分析、 OCR 以及從結構化和非結構化文件中提取資料。

主要特點:

支援超過100 層類型的神經網路
傳統的機器學習: 20 個以上演算法(分類、迴歸、聚類等)
CPU 和 GPU 支援，快速推理
支援 ONNX
語言: C++ ，Java，Objective-C
跨平台: 同樣的程式碼可以在 Windows、 Linux、 macOS、 iOS 和 Android 上執行

基於 PaddlePaddle 的超棒 OCR 工具套件

https://github.com/PaddlePaddle/PaddleOCR

PaddleOCR 旨在打造一套豐富、領先、且實用的 OCR 工具庫，協助開發者訓練出更好的模型，並應用落地。

860萬超輕量級預訓練模型，支援在伺服器，行動，嵌入式和 IoT裝置之間進行訓練和部署

OCR 應用

糰子翻譯器 —— 個人興趣製作的一款基於OCR技術的翻譯器

https://github.com/PantsuDango/Dango-Translator

為什麼想製作這個：

本身是個vnr翻譯軟體的忠實使用者，但是遇到某些遊戲無法提取文字，並且沒有找到有熱心人公開發布的特殊碼，於是某天研究如何提取特殊碼研究到了深夜還是失敗了。然後發現有OCR（文字識別）技術的存在，下載了很多已經有的OCR翻譯器，但是使用體驗都覺得很不方便，於是萌生了自己製作一個自己喜歡的翻譯器的想法

簡單地說明：

原理：該軟體為OCR翻譯器，OCR利用了百度AI的文字識別，原理為通過識別圖片上的外文文字並進行翻譯；
適用範圍：包括但不限於，galgame、rpg遊戲、模擬器遊戲、外文影片、網頁遊戲、pdf圖片版文獻等等，一切能顯示在電腦螢幕上的文字；
翻譯介面：百度、騰訊、彩雲、google等等共12個翻譯源；
譯文語種：日語、英語、韓文（會考慮加入其它的，但是目前必要性不大）；
其它詳細情況參見軟體版內配置的使用教程；

功能流程：

通過截圖的方式獲取需要翻譯的螢幕區域座標；
通過座標截圖（可自動），並發送至百度AI的文字識別介面；
獲取識別好的文字後傳送給百度、騰訊、彩雲等翻譯介面；
結果反饋至GUI介面；

shotlooter – 利用 OCR 檢查上傳到 prnt.sc 的影像檔是否含有敏感資料

https://github.com/utkusen/shotlooter

這個工具使用 Python 開發

應用 OCR 和影像處理方法，Shotlooter 工具可以發現螢幕截圖中的敏感資料，這些資料通過 LightShot 軟體上傳到 https://prnt.sc/ 。

基於 React Native ，使用機器學習和 OpenCV 技術進行影像處理的收據掃描 App

https://github.com/burhanuday/invoice-scanner-react-native

可以將掃描到的收據影像變成文字 ( OCR )，雖然是用 React Native ，但是看一下它的開發環境設定，目前 build 出來的 app 只有支援 Android

作文殺手

https://github.com/EssayKillerBrain/EssayKiller_V2

EssayKiller 是基於 OCR、NLP 領域的最新模型所建構的生成式文字創作 AI 框架，目前第一版 finetune 模型針對高考作文（主要是議論文），可以有效生成符合人類認知的文章，多數文章經過測試可以達到正常高中生及格作文水平。

框架說明

基於EAST、CRNN、Bert和GPT-2語言模型的高考作文生成AI
支援bert tokenizer，當前版本基於clue chinese vocab
17億參數多模組異構深度神經網路，超2億條預訓練資料
線上點選即用的文字生成效果demo：17億參數作文殺手
端到端生成，從試卷識別到答題卡輸出一條龍服務

模型結構

整個框架分為EAST、CRNN、Bert、GPT-2、DNN 5個模組，每個模組的網路單獨訓練，參數相互獨立。infer過程使用pipeline串聯，通過外接裝置直接輸出到答題卡。

也許你會有興趣

不受 FB 演算法影響，歡迎透過 e-mail 訂閱網站更新

相關

Comments are closed.

由 WordPress.com 建置.