光學字元辨識(英語:Optical Character Recognition,縮寫:OCR)是指對包含文字內容的圖像或視訊進行處理和辨識,並提取其中所包含的文字及排版資訊的過程。例如,一個常見的應用是將包含文件圖像的不可編輯狀態的 PDF 文件通過 OCR 技術辨識後,轉換為可編輯狀態的 Word 格式文件[。( 源自 WIKIPEDIA )
圖片轉文字( OCR )被廣泛使用在許多軟體中,最知名的應用莫過於 Google 翻譯 App 中的照相翻譯功能,這個開源專案主題報導除了包含圖片轉文字( OCR ) 開源引擎,也包含了使用 OCR 技術所開發出來的開源應用程式,想要在你自己的專案或是 App 中整合 OCR 功能是一個不錯的參考學習資源!
OCR 引擎
完全使用 Javascript 開發的 OCR ( 文字辨識 ) 引擎- 支援超過 100 種語言
也有支援繁體中文,如果你是 C/C++ 開發者可以參考 C/C++ 版本 https://github.com/tesseract-ocr/tesseract

支援包括中文、日文、韓文和泰文在內的40多種語言的即用 OCR

使用 Keras CRNN 辨識模型做 OCR ( 圖形到文字 )
這是一個使用已釋出的 CRAFT 文字辨識模型和 Keras CRNN 實現所包裝的版本。 它為訓練文字辨識和 OCR 管道提供了一個高階的 API。

支援深度學習和傳統演算法的機器學習框架
NeoML 是一個端到端的機器學習框架,允許你建構、訓練和部署機器學習模型。 該框架被 ABBYY 工程師用於電腦視覺和自然語言處理任務,包括影像預處理、分類、文件佈局分析、 OCR 以及從結構化和非結構化文件中提取資料。
主要特點:
- 支援超過100 層類型的神經網路
- 傳統的機器學習: 20 個以上演算法(分類、迴歸、聚類等)
- CPU 和 GPU 支援,快速推理
- 支援 ONNX
- 語言: C++ ,Java,Objective-C
- 跨平台: 同樣的程式碼可以在 Windows、 Linux、 macOS、 iOS 和 Android 上執行
基於 PaddlePaddle 的超棒 OCR 工具套件
PaddleOCR 旨在打造一套豐富、領先、且實用的 OCR 工具庫,協助開發者訓練出更好的模型,並應用落地。
860萬超輕量級預訓練模型,支援在伺服器,行動,嵌入式和 IoT裝置之間進行訓練和部署

OCR 應用
糰子翻譯器 —— 個人興趣製作的一款基於OCR技術的翻譯器
為什麼想製作這個:
本身是個vnr翻譯軟體的忠實使用者,但是遇到某些遊戲無法提取文字,並且沒有找到有熱心人公開發布的特殊碼,於是某天研究如何提取特殊碼研究到了深夜還是失敗了。然後發現有OCR(文字識別)技術的存在,下載了很多已經有的OCR翻譯器,但是使用體驗都覺得很不方便,於是萌生了自己製作一個自己喜歡的翻譯器的想法
簡單地說明:
- 原理:該軟體為OCR翻譯器,OCR利用了百度AI的文字識別,原理為通過識別圖片上的外文文字並進行翻譯;
- 適用範圍:包括但不限於,galgame、rpg遊戲、模擬器遊戲、外文影片、網頁遊戲、pdf圖片版文獻等等,一切能顯示在電腦螢幕上的文字;
- 翻譯介面:百度、騰訊、彩雲、google等等共12個翻譯源;
- 譯文語種:日語、英語、韓文(會考慮加入其它的,但是目前必要性不大);
- 其它詳細情況參見軟體版內配置的使用教程;
功能流程:
- 通過截圖的方式獲取需要翻譯的螢幕區域座標;
- 通過座標截圖(可自動),並發送至百度AI的文字識別介面;
- 獲取識別好的文字後傳送給百度、騰訊、彩雲等翻譯介面;
- 結果反饋至GUI介面;
shotlooter – 利用 OCR 檢查上傳到 prnt.sc 的影像檔是否含有敏感資料
這個工具使用 Python 開發
應用 OCR 和影像處理方法,Shotlooter 工具可以發現螢幕截圖中的敏感資料,這些資料通過 LightShot 軟體上傳到 https://prnt.sc/ 。

基於 React Native ,使用機器學習和 OpenCV 技術進行影像處理的收據掃描 App
可以將掃描到的收據影像變成文字 ( OCR ),雖然是用 React Native ,但是看一下它的開發環境設定,目前 build 出來的 app 只有支援 Android

作文殺手
EssayKiller 是基於 OCR、NLP 領域的最新模型所建構的生成式文字創作 AI 框架,目前第一版 finetune 模型針對高考作文(主要是議論文),可以有效生成符合人類認知的文章,多數文章經過測試可以達到正常高中生及格作文水平。
框架說明
- 基於EAST、CRNN、Bert和GPT-2語言模型的高考作文生成AI
- 支援bert tokenizer,當前版本基於clue chinese vocab
- 17億參數多模組異構深度神經網路,超2億條預訓練資料
- 線上點選即用的文字生成效果demo:17億參數作文殺手
- 端到端生成,從試卷識別到答題卡輸出一條龍服務
模型結構
整個框架分為EAST、CRNN、Bert、GPT-2、DNN 5個模組,每個模組的網路單獨訓練,參數相互獨立。infer過程使用pipeline串聯,通過外接裝置直接輸出到答題卡。


也許你會有興趣
- 更多開源專案主題介紹
- 使用深度學習的 Python OpenCV4 電腦視覺介紹
- 中文課程 – 電腦視覺 – OpenCV 專案實戰( Python 版)
- UiPath RPA – 第二級 機器人流程自動化 RPA( Robotic Process Automation )
- 各種主題最受歡迎的課程
你必須登入才能發表留言。