這是開源報報訂閱者的 Bonus 服務,小編每天整理開源報報發現許多開源工具是相輔相成的,所以接下來會將這些開源工具整理成一篇主題報導,可以更方便一起搭配使用這些開源工具來增加生產力。
策展摘要說明
圖片轉文字( OCR )被廣泛使用在許多軟體中,最知名的應用莫過於 Google 翻譯 App 中的照相翻譯功能,這個開源專案主題報導除了包含圖片轉文字( OCR ) 開源引擎,也包含了使用 OCR 技術所開發出來的開源應用程式,想要在你自己的專案或是 App 中整合 OCR 功能是一個不錯的參考學習資源!
🌳 主題報導的內容會隨著發現新的開源專案持續更新,想要追蹤這篇主題報導的變更紀錄,可到這篇 po 文按讚追蹤
✍ 以主題方式整理出相關的開源專案 – 開源報報主題報導
OCR 引擎
完全使用 Javascript 開發的 OCR ( 文字辨識 ) 引擎- 支援超過 100 種語言
也有支援繁體中文,如果你是 C/C++ 開發者可以參考 C/C++ 版本 https://github.com/tesseract-ocr/tesseract
支援包括中文、日文、韓文和泰文在內的40多種語言的即用 OCR
使用 Keras CRNN 辨識模型做 OCR ( 圖形到文字 )
這是一個使用已釋出的 CRAFT 文字辨識模型和 Keras CRNN 實現所包裝的版本。 它為訓練文字辨識和 OCR 管道提供了一個高階的 API。
支援深度學習和傳統演算法的機器學習框架
NeoML 是一個端到端的機器學習框架,允許你建構、訓練和部署機器學習模型。 該框架被 ABBYY 工程師用於電腦視覺和自然語言處理任務,包括影像預處理、分類、文件佈局分析、 OCR 以及從結構化和非結構化文件中提取資料。
主要特點:
- 支援超過100 層類型的神經網路
- 傳統的機器學習: 20 個以上演算法(分類、迴歸、聚類等)
- CPU 和 GPU 支援,快速推理
- 支援 ONNX
- 語言: C++ ,Java,Objective-C
- 跨平台: 同樣的程式碼可以在 Windows、 Linux、 macOS、 iOS 和 Android 上執行
基於 PaddlePaddle 的超棒 OCR 工具套件
860萬超輕量級預訓練模型,支援在伺服器,行動,嵌入式和IoT裝置之間進行訓練和部署
OCR 應用
糰子翻譯器 —— 個人興趣製作的一款基於OCR技術的翻譯器
為什麼想製作這個:
本身是個vnr翻譯軟體的忠實使用者,但是遇到某些遊戲無法提取文字,並且沒有找到有熱心人公開發布的特殊碼,於是某天研究如何提取特殊碼研究到了深夜還是失敗了。然後發現有OCR(文字識別)技術的存在,下載了很多已經有的OCR翻譯器,但是使用體驗都覺得很不方便,於是萌生了自己製作一個自己喜歡的翻譯器的想法
簡單地說明:
- 原理:該軟體為OCR翻譯器,OCR利用了百度AI的文字識別,原理為通過識別圖片上的外文文字並進行翻譯;
- 適用範圍:包括但不限於,galgame、rpg遊戲、模擬器遊戲、外文影片、網頁遊戲、pdf圖片版文獻等等,一切能顯示在電腦螢幕上的文字;
- 翻譯介面:百度、騰訊、彩雲、google等等共12個翻譯源;
- 譯文語種:日語、英語、韓文(會考慮加入其它的,但是目前必要性不大);
- 其它詳細情況參見軟體版內配置的使用教程;
功能流程:
- 通過截圖的方式獲取需要翻譯的螢幕區域座標;
- 通過座標截圖(可自動),並發送至百度AI的文字識別介面;
- 獲取識別好的文字後傳送給百度、騰訊、彩雲等翻譯介面;
- 結果反饋至GUI介面;
shotlooter – 利用 OCR 檢查上傳到 prnt.sc 的影像檔是否含有敏感資料
這個工具使用 Python 開發
應用 OCR 和影像處理方法,Shotlooter 工具可以發現螢幕截圖中的敏感資料,這些資料通過 LightShot 軟體上傳到 https://prnt.sc/ 。
基於 React Native ,使用機器學習和 OpenCV 技術進行影像處理的收據掃描 App
可以將掃描到的收據影像變成文字 ( OCR ),雖然是用 React Native ,但是看一下它的開發環境設定,目前 build 出來的 app 只有支援 Android
作文殺手
EssayKiller 是基於 OCR、NLP 領域的最新模型所建構的生成式文字創作 AI 框架,目前第一版 finetune 模型針對高考作文(主要是議論文),可以有效生成符合人類認知的文章,多數文章經過測試可以達到正常高中生及格作文水平。
框架說明
- 基於EAST、CRNN、Bert和GPT-2語言模型的高考作文生成AI
- 支援bert tokenizer,當前版本基於clue chinese vocab
- 17億參數多模組異構深度神經網路,超2億條預訓練資料
- 線上點選即用的文字生成效果demo:17億參數作文殺手
- 端到端生成,從試卷識別到答題卡輸出一條龍服務
模型結構
整個框架分為EAST、CRNN、Bert、GPT-2、DNN 5個模組,每個模組的網路單獨訓練,參數相互獨立。infer過程使用pipeline串聯,通過外接裝置直接輸出到答題卡。
也許你會有興趣
- 更多開源專案主題介紹
- 使用深度學習的 Python OpenCV4 電腦視覺介紹
- 中文課程 – 電腦視覺 – OpenCV 專案實戰( Python 版)
- UiPath RPA – 第二級 機器人流程自動化 RPA( Robotic Process Automation )
- udemy 課程主題策展
你必須登入才能發表留言。