運用 Python 的自然語言處理

學習 Python 自然語言處理－使用 scikit-learn、spaCy 和 Hugging Face 進行文字預處理、機器學習、Transformer 模型和 LLM 模型建構。

從這 12.5 小時的課程，你會學到

回顧自然語言處理 (NLP) 技術及其應用的歷史和發展歷程，從傳統機器學習模型到現代語言學習模型 (LLM) 方法。
了解 NLP 文字預處理流程，包括文字清洗、標準化、語言分析和向量化。
運用傳統機器學習技術進行情緒分析、文字分類和主題建模。
理解神經網路和深度學習背後的理論，它們是現代 NLP 技術的基礎。
深入剖析 Transformer 架構的主要組成部分，包括嵌入、注意力機制和前饋神經網路 (FFN)。
使用 Hugging Face 預先訓練的 LLM 模型進行情緒分析、命名實體辨識 (NER)、零樣本分類、文件相似度分析以及文字摘要和產生。

要求

我們強烈建議您先學習我們的「Python 資料準備與探索性資料分析」課程。
Jupyter Notebook（免費下載，我們會引導您完成安裝）。
建議您熟悉 Python 和 Pandas 的基礎知識，但這不是必要的。

課程說明

這是一門注重實踐的課程，旨在為您提供Python現代自然語言處理（NLP）所有基本概念的全面概述。

我們將首先回顧過去70年來NLP的歷史和發展，包括目前最受歡迎的架構Transformer。我們還將講解建模所需的初始文字預處理步驟，您將學習如何使用pandas和spaCy清洗和標準化數據，然後使用詞頻和TF-IDF值將數據矢量化為文檔-詞項矩陣。

之後，課程分為兩部分：

前半部介紹傳統機器學習技術
後半部介紹現代深度學習和大型語言模型（LLM）方法

對於傳統的自然語言處理（NLP）應用，我們將首先使用 VADER 庫進行情緒分析，以確定文本的正面或負面情緒。然後，我們將使用 scikit-learn 函式庫，講解如何使用樸素貝葉斯對已標註資料進行文字分類，以及如何使用非負矩陣分解對未標註資料進行主題建模。

在您紮實掌握 NLP 基礎概念後，我們將進入課程的後半部分，學習現代 NLP 技術。這部分內容涵蓋了過去十年 NLP 的主要進展以及數據科學思維的轉變。

我們將從現代 NLP 技術的基本建構模組——神經網路入手。您將學習神經網路的訓練方法，熟悉層、節點、權重和激活函數等關鍵術語，並了解流行的深度學習架構及其實際應用。

之後，我們將討論 Transformer 架構，它是 ChatGPT、Gemini 和 Claude 等流行深度學習模型（LLM）背後的架構。我們將介紹主要層是如何運作的，以及它們各自的功能，包括詞嵌入、注意力機制和前饋神經網路。我們還將回顧僅編碼器模型、僅解碼器模型和編碼器-解碼器模型之間的區別，以及每種類型下的各種語言學習模型（LLM）。

最後，我們將運用所學知識，使用 Python 進行實作。我們將使用 Hugging Face 的 Transformers 函式庫及其模型中心來示範六個實用的自然語言處理（NLP）應用，包括情緒分析、命名實體辨識、零樣本分類、文字摘要、文字產生和文件相似度。

課程大綱：

安裝與設定
- 安裝 Anaconda，開始在 Jupyter Notebook 中編寫 Python 程式碼，並學習如何建立一個新的 conda 環境，以便為本課程做好準備。
自然語言處理入門 ( Natural Language Processing 101 )
- 回顧自然語言處理 (NLP) 的基礎知識，包括關鍵概念、NLP 的發展歷程及其應用和 Python libraries (程式庫) 。
文字預處理
- 逐步介紹應用機器學習演算法之前所需的文字預處理步驟，包括文字清洗、正規化、向量化等。
機器學習的 NLP
- 使用傳統的自然語言處理方法（包括基於規則、監督和非監督的機器學習技術）進行情緒分析、文字分類和主題建模。
神經網路與深度學習
- 以視覺化的方式分解神經網路和深度學習背後的概念，它們是現代自然語言處理技術的基礎。
Transformers & LLMs
- 深入了解Transformer架構的主要組成部分，包括字詞嵌入、注意力機制和前饋神經網路（FFN），以及用於自然語言處理任務的常用邏輯模型（LLM），例如BERT、GPT等。
Hugging Face Transformers
- 介紹 Python 中的 Hugging Face Transformers 庫，並透過範例示範如何使用預訓練的 LLM 執行 NLP 任務，包括情緒分析、命名實體辨識 (named entity recognition，NER)、零樣本分類、文字摘要、文字產生和文件相似性。
NLP 回顧與後續步驟
- 回顧本課程涵蓋的NLP技巧，了解何時使用它們，以及如何深入學習並保持與時俱進。