使用 Python 進行文字探勘和光學字元識別

主題建模、新聞分類、命名實體辨識( NER )、情緒分析、關鍵字擷取、車牌辨識系統

從這 4.5 小時的課程，你會學到

學習文本探勘的基本原理及其應用案例
學習光學字元辨識的基本原理及其應用案例
了解文本挖掘的工作原理。本節涵蓋資料收集、文字預處理、特徵提取、文字分析和建模。
了解光學字元辨識的工作原理。本節涵蓋影像預處理、文字定位、字元分割和字元辨識。
學習如何使用 NLTK 進行分詞和移除停用詞。
學習如何使用 NLTK 進行詞幹擷取、詞形還原和文字定位。
學習如何使用 Spacy 和 Flair 建立命名實體識別系統。
學習如何使用 Gensim 和 LDA 進行主題建模。
學習如何使用 TF-IDF 建立新聞文章分類系統。
學習如何使用 Transformers 和 BART 建立文字摘要器。
學習如何使用 Rake、NLTK 和 Spacy 提取關鍵字。
學習如何使用 TextBlob 和 BERT 進行情緒分析。
學習如何使用 TF-IDF 和餘弦相似度建立抄襲檢測工具。
學習如何使用支援向量機構建立垃圾郵件偵測工具。
學習如何進行影像處理並識別感興趣區域。
學習如何使用 EasyOCR 建立車牌辨識系統。
學習如何使用 EasyOCR 建立手寫辨識系統。
學習如何使用 Tesseract 建立收據掃描系統。
學習如何使用 VADER 對客戶回饋進行情緒分析。如何使用樸素貝葉斯建構語言偵測模型
學習如何使用 Pytesseract 從實驗報告中提取文本

要求

無需具備文本探勘經驗
無需具備光學字元辨識經驗
Python 與 Pandas 基礎知識

課程說明

歡迎來到「Python文本探勘與光學字元辨識」課程。這是一門全面的專案式課程，您將逐步學習如何使用自然語言處理技術進行高階文字探勘。此外，您還將使用 EasyOCR 和 Tesseract 等 Python libraries 建立光學字元辨識系統。此OCR系統能夠從各種文件類型和圖像中提取文字。本課程完美地結合了文字探勘和電腦視覺，提供了一個絕佳的機會，透過建立具有實際應用價值的複雜專案來練習您的程式設計技能。在介紹環節，您將學習文本探勘和光學字元辨識的基礎知識，例如了解它們的應用場景、技術原理、技術挑戰和限制。接下來，我們將從Kaggle下載文字資料集，其中包含數百條非結構化文字。在開始專案之前，我們將學習一些基本的文本挖掘技術，例如分詞、停用詞去除、詞幹提取、詞形還原和文本規範化。這部分內容非常重要，因為它能幫助您建立對文本探勘的基本理解。接下來，我們將進入專案部分。在文本挖掘方面，我們將有八個專案。第一個專案是建立新聞文章的命名實體識別系統；第二個專案是為學術研究創建主題建模系統；第三個專案是使用 TF-IDF 演算法創建新聞文章分類系統；第四個專案是建立研究論文的文本摘要係統；第五個專案是為搜尋引擎優化工具創建關鍵詞提取系統；第六個專案是對產品評論創建在下一節中，我們將學習 OCR 所需的基本技術，例如影像處理和感興趣區域識別。同時，在 OCR 方面，我們將有三個專案。第一個專案是建立車牌辨識系統；第二個專案是建立手寫辨識系統；最後一個專案是建立收據掃描系統。

首先，在正式開始學習之前，我們需要問自己一個問題：為什麼要學習文本探勘和光學字元辨識？我的答案是：文本探勘和光學字元辨識對於將非結構化文字資料轉化為有價值的洞察至關重要，它們能夠幫助企業和研究人員有效率地分析和解讀海量資訊。這些技術在自動化資料擷取和分析流程中發揮關鍵作用，能夠減少人工操作並提高準確性。此外，在醫療保健、金融和法律等領域，文字探勘和光學字元辨識對於管理大量文件、提取相關資訊以及確保符合監管要求都不可或缺。更重要的是，透過掌握這些技術，我們可以獲得開發高級數據驅動型應用程式所需的技能，最終提升我們運用數據科學和人工智慧解決複雜現實問題的能力。

以下是您在本課程中可以學習到的內容：

了解文本挖掘的基本原理及其用例
了解光學字元辨識的基本原理及其用例
了解文本挖掘的工作原理。本節涵蓋資料收集、文字預處理、特徵提取、文字分析和建模
了解光學字元辨識的工作原理。本節涵蓋擷取影像、預處理、文字本地化、字元分割、字元辨識和輸出生成
了解如何使用 NLTK 進行標記化並刪除停用詞
了解如何使用 NLTK 執行詞幹擷取、詞形還原和文字本地化
了解如何使用 Spacy 和 Flair 建立命名實體識別系統
了解如何使用 Gensim 和 LDA 執行主題建模
了解如何使用 TF-IDF 建立新聞文章分類
了解如何使用 Transformers 和 BART 建立文字摘要器
了解如何使用 Rake NLTK 和 Spacy 提取關鍵字
了解如何使用 TextBlob 和 BERT 執行情緒分析
了解如何使用 TF-IDF 和餘弦相似度建立抄襲偵測工具
了解如何使用支援向量機構建立垃圾郵件偵測工具
了解如何進行影像處理並識別感興趣區域
了解如何使用 EasyOCR 建立汽車車牌識別系統
了解如何使用 EasyOCR 建立手寫辨識系統
了解如何使用 Tesseract 建立收據掃描系統

其他專案

使用 VADER 對客戶回饋進行情緒分析：本專案將教您如何使用情緒分析工具 VADER 分析客戶回饋。您將學習如何將回饋分類為正面、負面或中性，從而深入了解客戶滿意度並改善業務策略。

使用樸素貝葉斯建構語言偵測模型：本計畫將使用樸素貝葉斯（一種流行的機器學習演算法）來建構語言偵測模型。您將訓練該模型以準確識別文字資料的語言，從而幫助企業和應用程式有效地處理多語言內容。

使用 Pytesseract 從實驗報告影像中擷取文字：本專案將引導您使用 OCR（光學字元辨識）工具 Pytesseract 從影像（特別是實驗報告）中擷取文字。您將學習如何自動從掃描或拍攝的文件中提取文本，以便輕鬆進行資料分析和處理。

目標受眾

有興趣了解文本挖掘的人
有興趣了解光學字元辨識的人

講師簡介

Christ Raharja 前科技風險顧問與電子商務愛好者

大家好，我叫 Chris Raharja。我畢業於華盛頓大學，獲得數學學士學位。我曾經在四大公司之一擔任技術顧問，現在我一直在運行幾種不同的商業模式，例如按需印刷、聯盟行銷、一件代發、廣告流量套利。自從我第一次在高中擔任志工數學導師以來，我一直對教學充滿熱情。我在 Udemy 上的目標是分享我的知識並建立一個精彩的社區來共同研究許多不同的事物。