文字清理、Spacy、NLTK、Scikit-Learn、深度學習、word2vec、GloVe、LSTM 用於情緒、情緒、垃圾郵件、簡歷( CV )解析
從這 38.5 小時的課程,你會學到
- 學習使用 Python 進行完整的文本處理
- 學習如何從 PDF 文件中提取文本
- 使用正則表達式在文本中搜索
- 使用 SpaCy 和 NLTK 從原始文本中提取完整的文本特徵
- 使用 Latent Dirichlet Allocation (潛在狄利克雷分配)進行主題建模
- 使用 Scikit-Learn 和深度學習進行文本分類
- 學習多類( Multi-Class a )和多標籤( Multi-Label )文本分類
- 使用 Spacy 和 NL 來進行情感分析( Sentiment Analysis )
- 理解並建構基於 word2vec 和 GloVe 的 ML 模型
- 使用 Gensim 取得預先訓練的字向量並計算相似度和類比度
- 使用 LSTM 和 GRU 學習文本摘要和文本生成
- 了解自然語言處理的基本概念、技術及其應用
- 了解如何使用 Python 及其流行 libraries(如 NLTK 和 spaCy)執行常見的 NLP 任務
- 能夠使用 Python 對文字資料進行標記和詞幹處理
- 理解並應用常見的 NLP 技術,例如情緒分析、文字分類和命名實體識別
- 了解如何將 NLP 技術應用於現實世界的問題和專案
- 理解主題建模的概念並使用 Python 實作
- 了解文本摘要的基礎知識及其使用 Python 的實作
- 理解文字生成的概念並使用 Python 實作 理解文字轉語音和語音轉文字轉換的概念並使用 Python 實作
- 了解如何將深度學習技術用於 NLP,例如 RNN、LSTM 和單字嵌入
要求
- 有學習意願
- 初級數學
- 對 Python 和機器學習有基本了解
課程說明
本綜合課程將從頭開始教您自然語言處理 (NLP),並利用 Python 為初學者講授。本課程包含超過 38 小時的精彩內容,是實踐學習之旅,涵蓋了處理文字資料和部署機器學習模型的基本技術和工具。完成本課程,您將獲得實現文字處理、機器學習、深度學習和文字分類模型的寶貴技能。
簡介:
從機器學習原理的簡單介紹開始您的旅程。在開始安裝所有必要的軟體(如 Anaconda、Python、VS Code 和 Git Bash)之前,您將對這個令人興奮的領域有一個清晰的概述。透過針對不同作業系統(Windows、Ubuntu 和 Mac)的逐步說明,您將能夠使用 Jupyter Notebooks 無縫運行 Python 程式碼。
機器學習 Python 速成課程:
為機器學習專門定制,為 Python 打下堅實的基礎。學習 Python 資料型別(types)、控制流(control flow)、迴圈(loops)、函數(functions)和錯誤處理。您將掌握如何有效地使用清單(lists)、字典( dictionaries)、集合(sets)和元組(tuples ),從而能夠立即編寫乾淨、高效的程式碼。
機器學習的 Numpy 速成課程:
熟練 Numpy,這是 Python 中數值計算的基本函式庫。了解如何建立、操作和執行陣列的統計運算。您還將了解如何處理多維數組、重塑它們以及執行高級操作(如排序和處理 NaN 值),這是處理 ML 中的資料集的關鍵。
機器學習 Pandas 速成課程:
在本部分中,您將深入了解 Pandas,這是一個重要的資料處理和分析工具。了解如何使用 Groupby、Aggregation 和 merging 等高級技術來載入、過濾、切片和清理資料。您還將專注於處理缺失資料並有效地為 ML 演算法準備資料。
使用文字檔案:
了解如何處理各種檔案格式,從基本文字檔案到 CSV、Excel 和 JSON 檔案。您將探索如何編寫、讀取和處理這些文件以提取和準備機器學習任務的資訊。將特別關注清理和提取 PDF 和音訊檔案等複雜文件的資料。
掌握 Python 正規表示式:
了解正規表示式 (Regex) 的強大功能,以便有效率地清理和預處理文字資料。本節介紹模式比對、擷取相關資訊以及使用 Python 中的正規表示式函數處理文字資料。
Spacy 文字處理簡介:
探索 Spacy,一個用於文字處理和 NLP 的行業標準庫。您將學習如何使用 Spacy 的預先建構模型進行標記、標記詞性 (parts of speech,POS) 以及提取命名實體(如人名和位置)。這些工具對於處理大量文字資料至關重要。
文字處理的 NLTK:
探索用於文字處理的自然語言工具包 (Natural Language Toolkit,NLTK)。學習標記化、詞幹擷取和詞形還原。您還將親身體驗命名實體識別 (NER)、分塊以及識別文字資料中的搭配。
完整的文字清理和文字處理:
深入了解文字清理,全面了解常見的清理任務,例如刪除 URL、提及、主題標籤和停用詞,以及擴充縮寫。您還將了解使用 TextBlob 庫的高級任務,例如拼字糾正、詞雲視覺化和情緒分析。
製作自己的文字處理 Python 套件:
本部分將幫助您建立自己的 Python 套件。設定專案目錄和必要文件後,您將實作方法來封裝文字處理工作流程。了解 setup[dot]py 等工具對於套件分發的重要性。
在 PyPi 上發布您的 Python 套件以便於安裝:
了解在 PyPi 上發布文字處理套件的過程,讓其他人可以輕鬆地透過 pip 安裝。本節將引導您建立 GitHub 儲存庫、上傳您的工作以及共用您的套件以供開源使用。
線性迴歸與面試問題:
深入了解基礎機器學習演算法之一—線性迴歸。了解如何對其進行編碼以完成預測房價等任務以及如何使用均方誤差 (MSE) 等評估指標。您還將探索有關回歸模型的常見面試問題。
邏輯迴歸與麵試問題:
深入研究邏輯迴歸,了解它如何執行二元分類任務,例如預測腫瘤是惡性還是良性。準備回答有關成本函數、熵和過度擬合的關鍵問題。
SVM、KNN、決策樹、隨機森林和面試問題:
在本節中,了解一些最常見的機器學習分類器,例如支援向量機 (SVM)、K-最近鄰 (KNN) 和決策樹。您將訓練模型並對其進行微調以獲得最佳性能。
垃圾郵件文字分類:
了解如何使用詞袋 (BoW) 和 TF-IDF 等經典技術建立垃圾郵件分類器。您將探索從特徵提取、資料載入、模型訓練和評估的過程。
IMDB 電影評論的情緒分析:
透過預測 IMDB 的電影評論來探索情緒分析。您將使用 TF-IDF 和各種機器學習模型(如邏輯迴歸和 SVM)進行分析,從而獲得對文字情緒分類任務的重要見解。
使用 Flask 部署 ML 模型: 了
解如何使用 Flask 將機器學習模型部署為 Web 應用程式。本節介紹如何設定 Flask 伺服器、在其上運行 ML 模型以及部署機器學習 API 進行即時預測。
用於標籤預測的多標籤文字分類:
掌握多標籤分類,這是一種每個實例可以屬於多個標籤的技術。您將把它應用於 Stack Overflow 資料集,重點是預測貼文的多個標籤。
使用 Word2Vec 嵌入進行情緒分析:
深入了解 Word2Vec 和 GloVe 等字詞嵌入,以增強您的情緒分析模型。透過使用這些詞向量訓練機器學習演算法,您可以提高模型的效能和準確性。
使用 Spacy 進行簡歷解析:
學習使用 Spacy 實作命名實體識別 (Named Entity Recognition ,NER) 來解析簡歷 (CV)。這項強大的技能可以自動執行從履歷中提取關鍵資訊等任務,這在人才獲取或人力資源自動化方面非常適用。
深度學習情緒分析:
探索用於文本情緒分析的深度學習技術,包括建構和訓練人工神經網路 (ANN) 和卷積神經網路 (CNN)。了解為什麼深度學習模型在處理複雜文字資料時如此有效。
使用深度學習進行仇恨言論分類:
專注於深度學習對文本進行分類,尤其是針對仇恨言論檢測等應用。透過使用 CNN 建立模型,您將對推文進行分類並了解如何建立強大的文字分類模型。
使用 LSTM 和 TensorFlow/Keras 產生詩歌:
探索如何使用 TensorFlow 和 Keras 透過長短期記憶 (LSTM) 網路自動產生文字。透過在詩歌資料集上訓練模型,您將了解如何在文字生成領域創建創意應用程式。
使用深度學習對災難推文進行分類:
了解如何使用深度學習和嵌入對災難推文進行分類。此專案可幫助您了解如何將情緒分析擴展到現實場景,並專注於災害管理溝通分析。
本課程的每個部分都將豐富您的知識並為您在自然語言處理和機器學習中的實際任務做好準備,創造掌握真實世界專案和為工作準備的 NLP 任務的機會。
目標受眾
- 自然語言處理初學者
- 資料科學家對學習 NLP 感興趣
- 對 Python 程式設計有基本了解並希望擴展其技能以包括自然語言處理的個人
- 希望將 NLP 添加到其工具包中的數據科學家、數據分析師和研究人員
- 想要建立涉及自然語言處理的應用程式(例如聊天機器人或基於文字的推薦系統)的開發人員
- 希望深入了解 NLP 的語言學、電腦科學和人工智慧等領域的學生和專業人士
講師簡介
Laxmi Kant | KGP Talkie AVP、數據科學加入創投 | 印度理工學院 Kharagpur 分校 | KGPTalkie
我是 Join Ventures 的資料科學副總裁,並且已經獲得博士學位。印度理工學院(IIT) Kharagpur 分校學者。我還共同創立了一家公司,mBreath Technologies。我在資料科學、團隊管理、業務發展和客戶分析方面擁有 8 年以上經驗。我曾與新創公司和跨國公司合作。您可以加入我的 YouTube 頻道 KGPTalkie。
字幕:英文
- 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To
- Udemy 永久擁有課程 NT310 起特價中(點擊連結看更多)
- ✨年訂閱每月 NT350( 限時優惠價NT245/月) 🌈 悠遊 Udemy 的 26000+ 門課,最大化學習 ( 原價 NT635/月 )
- Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
- 手機上點選優惠連結看到的價格比電腦上看到的貴
- $代表當地貨幣, 如在台灣為 NT
- 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現
報名參加課程

也許你會有興趣
- NLP 相關線上課程
- ★英語學習地圖 – 練好英文是最大的學習槓桿
- 如何找工作學習地圖 – 找工作不要靠運氣!
- 從 Soft & Share 各種社團頻道挑選你喜歡的加入
發表迴響