使用 OCR NER 從文件智慧地提取文字和資料

開發 Document Scanner App 專案，使用 OpenCV、Pytesseract、Spacy 從掃描文件中提取命名實體

從這 7.5 小時的課程，你會學到

開發和訓練命名實體識別模型
不僅從圖像中提取文本，還從名片中提取實體
從零開始開發像 ABBY 這樣的名片掃描儀
自然語言問題的高級資料預處理技術
實時 NER Apps

要求

至少應該是 Python 的初學者
了解 Pandas DataFrames 的聚合技術
使用 OpenCV 讀取、寫入圖像並在圖像上繪製矩形
了解 HTML、Boostrap

課程說明

歡迎來到“使用 OCR NER 從文件智慧地提取文字和資料”課程！！！

在本課程中，你將學習如何開發訂製的命名實體識別器。本課程的主要思想是從掃描的文件中提取實體，如發票、名片、運輸單、提單文件等。但是，為了資料隱私，我們將視圖限制在名片上。但是你可以運用此闡釋的框架到各種財務文件上。以下將敘述我們開發該專案所遵循的課綱。

為了開發這個專案，我們將使用資料科學中的兩種主要技術：

電腦視覺
自然語言處理

在電腦視覺模組中，我們將掃描文件，識別文本的位置，最後從圖像中提取文本。然後在自然語言處理中，我們將從文本中提取權利並進行必要的文本清理並從文本中解析實體。

電腦視覺模組中使用的 Python 程式庫

OpenCV
Numpy
Pytesseract

自然語言處理中使用的 Python 程式庫

Spacy
Pandas
Regular Expression( 正規表示式 )
字串

由於是結合兩種主要技術來開發專案，為了便於理解，我們將課程分為幾個開發階段。

階段 1：我們將通過進行必要的安裝和要求來設置專案。

安裝 Python
安裝依賴項

階段 2：我們將進行資料準備。也就是說，我們將使用 Pytesseract 從圖像中提取文本並進行必要的清理。

收集圖像
Pytesseract 概述
從所有圖像中提取文本
清理和準備文本

階段 3：我們將看到如何使用 BIO 標記來標記 NER 資料。

使用 BIO 技術手動標記
- B – Beginning (開始)
- I – inside(裡面)
- O – Outside(外面)

階段 4：我們將進一步清理文本並預處理資料以訓練機器學習。

為 Spacy 準備訓練資料
將資料轉換為 spacy 格式

階段 5：使用預處理資料，我們將訓練命名實體模型。

配置 NER 模型
訓練模型

階段 6：我們將使用 NER 和模型預測命名，並創建用於解析文本的資料管道。

加載模型
使用 Displacy 渲染和服務
在圖像上繪製邊界框
從文本中解析標題

最後，我們將把所有東西放在一起並創建文件掃描儀應用程式。

你準備好了嗎！！！

讓我們開始開發人工智慧專案。

目標受眾

任何想開發名片閱讀器應用程式的人
想要提高 NLP 技能的資料科學家、分析師、Python 開發人員

講師簡介

G Sudheer 資料科學家

我是Sudheer，從事資料科學工作，擁有在資訊科技和服務業的工作經驗。我精通機器學習、深度學習和統計演算法。我們主要從事影像處理和自然語言處理應用方面的工作。我還成功地將多個資料科學相關專案部署到AWS、Google Cloud等雲端平台即服務。

Data Science Anywhere 工程師團隊

你好，

我們是由機器學習專家和人工智慧開發人員組成的團隊，他們共同致力於推動人工智慧的發展。當新課程發佈時，你將收到我們的來信，回答 Q&A等等。

我們在這裡幫助你保持在資料科學和技術的尖端。

謝謝，

Data Science Anywhere Team

英文字幕：有

想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

Udemy 永久擁有課程許多課程約 NT400(點擊連結看更多)
✨年訂閱每月 NT350 🌈 悠遊 Udemy 的 26000+ 門課，最大化學習 ( 原價 NT635/月 )
Udemy 現在越來越多課程有中文字幕，請參考 Soft & Share 中文線上課程
手機上點選優惠連結看到的價格比電腦上看到的貴
＄代表當地貨幣, 如在台灣為 NT
點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上，請稍等刷新或重新點選就會出現

使用 OCR NER 從文件智慧地提取文字和資料

從這 7.5 小時的課程，你會學到

要求

課程說明

目標受眾

講師簡介

英文字幕：有

報名參加課程

不受 FB 演算法影響，歡迎透過 e-mail 訂閱網站更新

請按讚：

相關

發表迴響取消回覆

透過電子郵件關注網誌

近期文章

從這 7.5 小時的課程，你會學到

要求

課程說明

目標受眾

講師簡介

英文字幕：有

報名參加課程

不受 FB 演算法影響，歡迎透過 e-mail 訂閱網站更新

分享此文

請按讚：

相關

發表迴響取消回覆

透過電子郵件關注網誌

近期文章

探索更多來自 Soft & Share 的內容