學習 Python 自然語言處理-使用 scikit-learn、spaCy 和 Hugging Face 進行文字預處理、機器學習、Transformer 模型和 LLM 模型建構。
從這 12.5 小時的課程,你會學到
- 回顧自然語言處理 (NLP) 技術及其應用的歷史和發展歷程,從傳統機器學習模型到現代語言學習模型 (LLM) 方法。
- 了解 NLP 文字預處理流程,包括文字清洗、標準化、語言分析和向量化。
- 運用傳統機器學習技術進行情緒分析、文字分類和主題建模。
- 理解神經網路和深度學習背後的理論,它們是現代 NLP 技術的基礎。
- 深入剖析 Transformer 架構的主要組成部分,包括嵌入、注意力機制和前饋神經網路 (FFN)。
- 使用 Hugging Face 預先訓練的 LLM 模型進行情緒分析、命名實體辨識 (NER)、零樣本分類、文件相似度分析以及文字摘要和產生。
要求
- 我們強烈建議您先學習我們的「Python 資料準備與探索性資料分析」課程。
- Jupyter Notebook(免費下載,我們會引導您完成安裝)。
- 建議您熟悉 Python 和 Pandas 的基礎知識,但這不是必要的。
課程說明
這是一門注重實踐的課程,旨在為您提供Python現代自然語言處理(NLP)所有基本概念的全面概述。
我們將首先回顧過去70年來NLP的歷史和發展,包括目前最受歡迎的架構Transformer。我們還將講解建模所需的初始文字預處理步驟,您將學習如何使用pandas和spaCy清洗和標準化數據,然後使用詞頻和TF-IDF值將數據矢量化為文檔-詞項矩陣。
之後,課程分為兩部分:
- 前半部介紹傳統機器學習技術
- 後半部介紹現代深度學習和大型語言模型(LLM)方法
對於傳統的自然語言處理(NLP)應用,我們將首先使用 VADER 庫進行情緒分析,以確定文本的正面或負面情緒。然後,我們將使用 scikit-learn 函式庫,講解如何使用樸素貝葉斯對已標註資料進行文字分類,以及如何使用非負矩陣分解對未標註資料進行主題建模。
在您紮實掌握 NLP 基礎概念後,我們將進入課程的後半部分,學習現代 NLP 技術。這部分內容涵蓋了過去十年 NLP 的主要進展以及數據科學思維的轉變。
我們將從現代 NLP 技術的基本建構模組——神經網路入手。您將學習神經網路的訓練方法,熟悉層、節點、權重和激活函數等關鍵術語,並了解流行的深度學習架構及其實際應用。
之後,我們將討論 Transformer 架構,它是 ChatGPT、Gemini 和 Claude 等流行深度學習模型(LLM)背後的架構。我們將介紹主要層是如何運作的,以及它們各自的功能,包括詞嵌入、注意力機制和前饋神經網路。我們還將回顧僅編碼器模型、僅解碼器模型和編碼器-解碼器模型之間的區別,以及每種類型下的各種語言學習模型(LLM)。
最後,我們將運用所學知識,使用 Python 進行實作。我們將使用 Hugging Face 的 Transformers 函式庫及其模型中心來示範六個實用的自然語言處理(NLP)應用,包括情緒分析、命名實體辨識、零樣本分類、文字摘要、文字產生和文件相似度。
課程大綱:
- 安裝與設定
- 安裝 Anaconda,開始在 Jupyter Notebook 中編寫 Python 程式碼,並學習如何建立一個新的 conda 環境,以便為本課程做好準備。
- 自然語言處理入門 ( Natural Language Processing 101 )
- 回顧自然語言處理 (NLP) 的基礎知識,包括關鍵概念、NLP 的發展歷程及其應用和 Python libraries (程式庫) 。
- 文字預處理
- 逐步介紹應用機器學習演算法之前所需的文字預處理步驟,包括文字清洗、正規化、向量化等。
- 機器學習的 NLP
- 使用傳統的自然語言處理方法(包括基於規則、監督和非監督的機器學習技術)進行情緒分析、文字分類和主題建模。
- 神經網路與深度學習
- 以視覺化的方式分解神經網路和深度學習背後的概念,它們是現代自然語言處理技術的基礎。
- Transformers & LLMs
- 深入了解Transformer架構的主要組成部分,包括字詞嵌入、注意力機制和前饋神經網路(FFN),以及用於自然語言處理任務的常用邏輯模型(LLM),例如BERT、GPT等。
- Hugging Face Transformers
- 介紹 Python 中的 Hugging Face Transformers 庫,並透過範例示範如何使用預訓練的 LLM 執行 NLP 任務,包括情緒分析、命名實體辨識 (named entity recognition,NER)、零樣本分類、文字摘要、文字產生和文件相似性。
- NLP 回顧與後續步驟
- 回顧本課程涵蓋的NLP技巧,了解何時使用它們,以及如何深入學習並保持與時俱進。
準備好深入學習了嗎?立即加入,即可終身存取以下內容:
- 12.5 小時的高品質視訊課程
- 13 項作業
- 4 互動練習
- 《Python 自然語言處理》電子書(200 多頁)
- 可下載的專案文件和解決方案
- 專家支援和問答論壇
- 30 天 Udemy 滿意保證
如果您是一位有抱負或經驗豐富的資料科學家,正在尋找 Python 中傳統和現代自然語言處理 (NLP) 技術的實用概述,那麼這門課程正是為您量身打造的。
祝您學習愉快!
-Alice Zhao(Maven Analytics Python 專家及資料科學講師)
想學習更多資料與人工智慧課程?搜尋「Maven Analytics」即可瀏覽我們完整的課程庫,涵蓋 Excel、Power BI、MySQL、Tableau、機器學習等眾多課程!
看看為什麼我們的課程在 Udemy 上名列前茅:
「這是我上過的最好的課程之一。我學過好幾種程式語言、Excel、VBA 和 Web 開發,Maven 絕對是我見過的最好的課程之一!」—Russ C.
「這是我上的第四門 Maven Analytics 課程,也是我第四次給出五星級好評,我已經詞窮了。真希望 Maven 能早點出現在我的生活中!」—Tatsiana M.
「Maven Analytics 應該成為 Udemy 所有課程的新標竿!」—Jonah M.
目標受眾
- 希望了解 Python 自然語言處理技術實用概述的有志成為資料科學家的讀者
- 希望學習最新 NLP 技術(例如 Transformer、LLM 和 Hugging Face)的資深資料科學家
講師簡介
Maven Analytics • 1,500,000 學習者 賦予一般人改變生活的數據技能
Maven Analytics 致力於幫助每個人掌握改變人生的數據技能。
作為引領產業變革的頂尖教育科技公司之一,我們獨創的引導式學習模式幫助個人和團隊學習新技能、展示成果,並與世界各地的專家建立聯繫。
我們已協助超過 200 萬名學員掌握就業所需的技能,精通 Excel、SQL、Power BI、Tableau 和 Python 等工具,並加速他們的資料職涯。
立即免費開始學習!
講師
Alice Zhao Maven Analytics首席資料科學講師
Alice Zhao 是一位資料科學家,她熱衷於教學,致力於將複雜的概念化繁為簡。
她是西北大學機器學習與資料科學研究生課程的講師,教授 Python、R 語言、資料倉儲和資料視覺化課程。
她是《SQL Pocket Guide》(第四版,O’Reilly出版社)的作者,並在YouTube上擁有最受歡迎的Python自然語言處理教程,觀看次數達120萬次。
她擁有西北大學分析學碩士學位和電機工程學士學位。
字幕:英文
- 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To
- Udemy 永久擁有課程 許多課程約 NT400(點擊連結看更多)
- ✨年訂閱每月 NT350(再享特別優惠:年度訂閱首年享 25% 折扣) 🌈 悠遊 Udemy 的 26000+ 門課,最大化學習 ( 原價 NT635/月 )
- Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
- 手機上點選優惠連結看到的價格比電腦上看到的貴
- $代表當地貨幣, 如在台灣為 NT
- 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現
報名參加課程

也許你會有興趣
- 自然語言處理相關線上課程
- ★英語學習地圖 – 練好英文是最大的學習槓桿
- 如何找工作學習地圖 – 找工作不要靠運氣!
- 從 Soft & Share 各種社團頻道挑選你喜歡的加入
發表迴響