Contents
開發 Document Scanner App 專案,使用 OpenCV、Pytesseract、Spacy 從掃描文件中提取命名實體
從這 7.5 小時的課程,你會學到
- 開發和訓練命名實體識別模型
- 不僅從圖像中提取文本,還從名片中提取實體
- 從零開始開發像 ABBY 這樣的名片掃描儀
- 自然語言問題的高級資料預處理技術
- 實時 NER Apps
要求
- 至少應該是 Python 的初學者
- 了解 Pandas DataFrames 的聚合技術
- 使用 OpenCV 讀取、寫入圖像並在圖像上繪製矩形
- 了解 HTML、Boostrap
課程說明
歡迎來到“使用 OCR NER 從文件智慧地提取文字和資料”課程!!!
在本課程中,你將學習如何開發訂製的命名實體識別器。 本課程的主要思想是從掃描的文件中提取實體,如發票、名片、運輸單、提單文件等。但是,為了資料隱私,我們將視圖限制在名片上。 但是你可以運用此闡釋的框架到各種財務文件上。 以下將敘述我們開發該專案所遵循的課綱。
為了開發這個專案,我們將使用資料科學中的兩種主要技術:
- 電腦視覺
- 自然語言處理
在電腦視覺模組中,我們將掃描文件,識別文本的位置,最後從圖像中提取文本。 然後在自然語言處理中,我們將從文本中提取權利並進行必要的文本清理並從文本中解析實體。
電腦視覺模組中使用的 Python 程式庫
- OpenCV
- Numpy
- Pytesseract
自然語言處理中使用的 Python 程式庫
- Spacy
- Pandas
- Regular Expression( 正規表示式 )
- 字串
由於是結合兩種主要技術來開發專案,為了便於理解,我們將課程分為幾個開發階段。
階段 1:我們將通過進行必要的安裝和要求來設置專案。
- 安裝 Python
- 安裝依賴項
階段 2:我們將進行資料準備。也就是說,我們將使用 Pytesseract 從圖像中提取文本並進行必要的清理。
- 收集圖像
- Pytesseract 概述
- 從所有圖像中提取文本
- 清理和準備文本
階段 3:我們將看到如何使用 BIO 標記來標記 NER 資料。
- 使用 BIO 技術手動標記
- B – Beginning (開始)
- I – inside(裡面)
- O – Outside(外面)
階段 4:我們將進一步清理文本並預處理資料以訓練機器學習。
- 為 Spacy 準備訓練資料
- 將資料轉換為 spacy 格式
階段 5:使用預處理資料,我們將訓練命名實體模型。
- 配置 NER 模型
- 訓練模型
階段 6:我們將使用 NER 和模型預測命名,並創建用於解析文本的資料管道。
- 加載模型
- 使用 Displacy 渲染和服務
- 在圖像上繪製邊界框
- 從文本中解析標題
最後,我們將把所有東西放在一起並創建文件掃描儀應用程式。
你準備好了嗎 !!!
讓我們開始開發人工智慧專案。
目標受眾
- 任何想開發名片閱讀器應用程式的人
- 想要提高 NLP 技能的資料科學家、分析師、Python 開發人員
講師簡介
Srikanth Gusksra 資料科學家
我是 Srikanth,從事資料科學工作,具有在資訊技術和服務行業工作的豐富歷史。 精通機器學習、深度學習、統計演算法。 我們主要從事圖像處理和自然語言處理應用程式。 我還成功地將許多與資料科學相關的專案部署在雲端平台中,作為 AWS、Google Cloud 等中的服務。
Data Science Anywhere 工程師團隊
你好,
我們是由機器學習專家和人工智慧開發人員組成的團隊,他們共同致力於推動人工智慧的發展。 當新課程發佈時,你將收到我們的來信,回答 Q&A等等。
我們在這裡幫助你保持在資料科學和技術的尖端。
謝謝,
Data Science Anywhere Team
英文字幕:有
- 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To
- 點選這個✨優惠連結✨ 課程特價 | Udemy 永久擁有課程 NT390 起( 在電腦瀏覽器登入,點選“優惠連結”後再回想要的課程介紹中點選“報名參加課程”即可取得 )
- Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
- 手機上點選優惠連結看到的價格比電腦上看到的貴
- $代表當地貨幣, 如在台灣為 NT
- 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現