fbpx

使用 OCR NER 從文件智慧地提取文本和資料

開發 Document Scanner App 專案,使用 OpenCV、Pytesseract、Spacy 從掃描文件中提取命名實體

從這 7.5 小時的課程,你會學到

  • 開發和訓練命名實體識別模型
  • 不僅從圖像中提取文本,還從名片中提取實體
  • 從零開始開發像 ABBY 這樣的名片掃描儀
  • 自然語言問題的高級資料預處理技術
  • 實時 NER Apps

要求

  • 至少應該是 Python 的初學者
  • 了解 Pandas DataFrames 的聚合技術
  • 使用 OpenCV 讀取、寫入圖像並在圖像上繪製矩形
  • 了解 HTML、Boostrap

課程說明

歡迎來到“使用 OCR NER 從文件智慧地提取文本和資料”課程!!!

在本課程中,你將學習如何開發訂製的命名實體識別器。 本課程的主要思想是從掃描的文件中提取實體,如發票、名片、運輸單、提單文件等。但是,為了資料隱私,我們將視圖限制在名片上。 但是你可以運用此闡釋的框架到各種財務文件上。 以下將敘述我們開發該專案所遵循的課綱。

為了開發這個專案,我們將使用資料科學中的兩種主要技術:

  • 電腦視覺
  • 自然語言處理

在電腦視覺模組中,我們將掃描文件,識別文本的位置,最後從圖像中提取文本。 然後在自然語言處理中,我們將從文本中提取權利並進行必要的文本清理並從文本中解析實體。

電腦視覺模組中使用的 Python 程式庫

  • OpenCV
  • Numpy
  • Pytesseract

自然語言處理中使用的 Python 程式庫

  • Spacy
  • Pandas
  • Regular Expression( 正規表示式 )
  • 字串

由於是結合兩種主要技術來開發專案,為了便於理解,我們將課程分為幾個開發階段。

階段 1:我們將通過進行必要的安裝和要求來設置專案。

  • 安裝 Python
  • 安裝依賴項

階段 2:我們將進行資料準備。也就是說,我們將使用 Pytesseract 從圖像中提取文本並進行必要的清理。

  • 收集圖像
  • Pytesseract 概述
  • 從所有圖像中提取文本
  • 清理和準備文本

階段 3:我們將看到如何使用 BIO 標記來標記 NER 資料。

  • 使用 BIO 技術手動標記
    • B – Beginning (開始)
    • I – inside(裡面)
    • O – Outside(外面)

階段 4:我們將進一步清理文本並預處理資料以訓練機器學習。

  • 為 Spacy 準備訓練資料
  • 將資料轉換為 spacy 格式

階段 5:使用預處理資料,我們將訓練命名實體模型。

  • 配置 NER 模型
  • 訓練模型

階段 6:我們將使用 NER 和模型預測命名,並創建用於解析文本的資料管道。

  • 加載模型
  • 使用 Displacy 渲染和服務
  • 在圖像上繪製邊界框
  • 從文本中解析標題

最後,我們將把所有東西放在一起並創建文件掃描儀應用程式。

你準備好了嗎 !!!

讓我們開始開發人工智慧專案。

目標受眾

  • 任何想開發名片閱讀器應用程式的人
  • 想要提高 NLP 技能的資料科學家、分析師、Python 開發人員

講師簡介

Srikanth Gusksra 資料科學家

我是 Srikanth,從事資料科學工作,具有在資訊技術和服務行業工作的豐富歷史。 精通機器學習、深度學習、統計演算法。 我們主要從事圖像處理和自然語言處理應用程式。 我還成功地將許多與資料科學相關的專案部署在雲端平台中,作為 AWS、Google Cloud 等中的服務。

Data Science Anywhere 工程師團隊

你好,

我們是由機器學習專家和人工智慧開發人員組成的團隊,他們共同致力於推動人工智慧的發展。 當新課程發佈時,你將收到我們的來信,回答 Q&A等等。

我們在這裡幫助你保持在資料科學和技術的尖端。

謝謝,

Data Science Anywhere Team

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

報名參加課程

Sponsored by Udemy


🛫使用關鍵字連結獲得更多線上學習資訊?請參考這個網頁說明


幫我們個小忙!

使用 e-mail 追蹤 Soft & Share

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: