使用 Python 進行文字探勘和光學字元識別

主題建模、新聞分類、命名實體辨識( NER )、情緒分析、關鍵字擷取、車牌辨識系統

從這 4.5 小時的課程,你會學到

  • 學習文本探勘的基本原理及其應用案例
  • 學習光學字元辨識的基本原理及其應用案例
  • 了解文本挖掘的工作原理。本節涵蓋資料收集、文字預處理、特徵提取、文字分析和建模。
  • 了解光學字元辨識的工作原理。本節涵蓋影像預處理、文字定位、字元分割和字元辨識。
  • 學習如何使用 NLTK 進行分詞和移除停用詞。
  • 學習如何使用 NLTK 進行詞幹擷取、詞形還原和文字定位。
  • 學習如何使用 Spacy 和 Flair 建立命名實體識別系統。
  • 學習如何使用 Gensim 和 LDA 進行主題建模。
  • 學習如何使用 TF-IDF 建立新聞文章分類系統。
  • 學習如何使用 Transformers 和 BART 建立文字摘要器。
  • 學習如何使用 Rake、NLTK 和 Spacy 提取關鍵字。
  • 學習如何使用 TextBlob 和 BERT 進行情緒分析。
  • 學習如何使用 TF-IDF 和餘弦相似度建立抄襲檢測工具。
  • 學習如何使用支援向量機構建立垃圾郵件偵測工具。
  • 學習如何進行影像處理並識別感興趣區域。
  • 學習如何使用 EasyOCR 建立車牌辨識系統。
  • 學習如何使用 EasyOCR 建立手寫辨識系統。
  • 學習如何使用 Tesseract 建立收據掃描系統。
  • 學習如何使用 VADER 對客戶回饋進行情緒分析。如何使用樸素貝葉斯建構語言偵測模型
  • 學習如何使用 Pytesseract 從實驗報告中提取文本

要求

  • 無需具備文本探勘經驗
  • 無需具備光學字元辨識經驗
  • Python 與 Pandas 基礎知識

課程說明

歡迎來到「Python文本探勘與光學字元辨識」課程。這是一門全面的專案式課程,您將逐步學習如何使用自然語言處理技術進行高階文字探勘。此外,您還將使用 EasyOCR 和 Tesseract 等 Python libraries 建立光學字元辨識系統。此OCR系統能夠從各種文件類型和圖像中提取文字。本課程完美地結合了文字探勘和電腦視覺,提供了一個絕佳的機會,透過建立具有實際應用價值的複雜專案來練習您的程式設計技能。在介紹環節,您將學習文本探勘和光學字元辨識的基礎知識,例如了解它們的應用場景、技術原理、技術挑戰和限制。接下來,我們將從Kaggle下載文字資料集,其中包含數百條非結構化文字。在開始專案之前,我們將學習一些基本的文本挖掘技術,例如分詞、停用詞去除、詞幹提取、詞形還原和文本規範化。這部分內容非常重要,因為它能幫助您建立對文本探勘的基本理解。接下來,我們將進入專案部分。在文本挖掘方面,我們將有八個專案。第一個專案是建立新聞文章的命名實體識別系統;第二個專案是為學術研究創建主題建模系統;第三個專案是使用 TF-IDF 演算法創建新聞文章分類系統;第四個專案是建立研究論文的文本摘要係統;第五個專案是為搜尋引擎優化工具創建關鍵詞提取系統;第六個專案是對產品評論創建在下一節中,我們將學習 OCR 所需的基本技術,例如影像處理和感興趣區域識別。同時,在 OCR 方面,我們將有三個專案。第一個專案是建立車牌辨識系統;第二個專案是建立手寫辨識系統;最後一個專案是建立收據掃描系統。

首先,在正式開始學習之前,我們需要問自己一個問題:為什麼要學習文本探勘和光學字元辨識?我的答案是:文本探勘和光學字元辨識對於將非結構化文字資料轉化為有價值的洞察至關重要,它們能夠幫助企業和研究人員有效率地分析和解讀海量資訊。這些技術在自動化資料擷取和分析流程中發揮關鍵作用,能夠減少人工操作並提高準確性。此外,在醫療保健、金融和法律等領域,文字探勘和光學字元辨識對於管理大量文件、提取相關資訊以及確保符合監管要求都不可或缺。更重要的是,透過掌握這些技術,我們可以獲得開發高級數據驅動型應用程式所需的技能,最終提升我們運用數據科學和人工智慧解決複雜現實問題的能力。

以下是您在本課程中可以學習到的內容:

  • 了解文本挖掘的基本原理及其用例
  • 了解光學字元辨識的基本原理及其用例
  • 了解文本挖掘的工作原理。本節涵蓋資料收集、文字預處理、特徵提取、文字分析和建模
  • 了解光學字元辨識的工作原理。本節涵蓋擷取影像、預處理、文字本地化、字元分割、字元辨識和輸出生成
  • 了解如何使用 NLTK 進行標記化並刪除停用詞
  • 了解如何使用 NLTK 執行詞幹擷取、詞形還原和文字本地化
  • 了解如何使用 Spacy 和 Flair 建立命名實體識別系統
  • 了解如何使用 Gensim 和 LDA 執行主題建模
  • 了解如何使用 TF-IDF 建立新聞文章分類
  • 了解如何使用 Transformers 和 BART 建立文字摘要器
  • 了解如何使用 Rake NLTK 和 Spacy 提取關鍵字
  • 了解如何使用 TextBlob 和 BERT 執行情緒分析
  • 了解如何使用 TF-IDF 和餘弦相似度建立抄襲偵測工具
  • 了解如何使用支援向量機構建立垃圾郵件偵測工具
  • 了解如何進行影像處理並識別感興趣區域
  • 了解如何使用 EasyOCR 建立汽車車牌識​​別系統
  • 了解如何使用 EasyOCR 建立手寫辨識系統
  • 了解如何使用 Tesseract 建立收據掃描系統

其他專案

使用 VADER 對客戶回饋進行情緒分析:本專案將教您如何使用情緒分析工具 VADER 分析客戶回饋。您將學習如何將回饋分類為正面、負面或中性,從而深入了解客戶滿意度並改善業務策略。

使用樸素貝葉斯建構語言偵測模型:本計畫將使用樸素貝葉斯(一種流行的機器學習演算法)來建構語言偵測模型。您將訓練該模型以準確識別文字資料的語言,從而幫助企業和應用程式有效地處理多語言內容。

使用 Pytesseract 從實驗報告影像中擷取文字:本專案將引導您使用 OCR(光學字元辨識)工具 Pytesseract 從影像(特別是實驗報告)中擷取文字。您將學習如何自動從掃描或拍攝的文件中提取文本,以便輕鬆進行資料分析和處理。

目標受眾

  • 有興趣了解文本挖掘的人
  • 有興趣了解光學字元辨識的人

講師簡介

Christ Raharja 前科技風險顧問與電子商務愛好者

大家好,我叫 Chris Raharja。我畢業於華盛頓大學,獲得數學學士學位。我曾經在四大公司之一擔任技術顧問,現在我一直在運行幾種不同的商業模式,例如按需印刷、聯盟行銷、一件代發、廣告流量套利。自從我第一次在高中擔任志工數學導師以來,我一直對教學充滿熱情。我在 Udemy 上的目標是分享我的知識並建立一個精彩的社區來共同研究許多不同的事物。

字幕:英文

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

  • Udemy 永久擁有課程 NT290 起特價中(點擊連結看更多)
  • 年訂閱每月 NT350 🌈 悠遊 Udemy 的 26000+ 門課,最大化學習 ( 原價 NT635/月 )
  • Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
  • 手機上點選優惠連結看到的價格比電腦上看到的貴
  • $代表當地貨幣, 如在台灣為 NT
  • 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現

報名參加課程

Sponsored by Udemy


也許你會有興趣

不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

由 WordPress.com 建置.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading