fbpx

機器學習:Python 中的自然語言處理 NLP (V2)

NLP:在 Python 中使用馬可夫( Markov )模型、NLTK、人工智慧、深度學習、機器學習和資料科學

從這 22 小時的課程,你會學到

  • 如何使用 CountVectorizer、TF-IDF、word2vec 和 GloVe 將文本( text )轉換為向量( vectors )
  • 如何實現一個文件檢索系統/搜索引擎/相似度搜索/向量相似度
  • 機率模型、語言模型和馬可夫模型(Transformers、BERT 和 GPT-3 的先決條件)
  • 如何使用遺傳演算法和語言建模實現密碼解密( cipher decription )演算法
  • 如何實現垃圾郵件檢測
  • 如何實施情緒分析
  • 如何實現文章微調器( article spinner )
  • 如何實現文本摘要
  • 如何實現潛在語義索引
  • 如何使用 LDA、NMF 和 SVD 實現主題建模
  • 機器學習 :樸素貝葉斯 Naive Bayes、邏輯迴歸、PCA、SVD、LDA ( Latent Dirichlet Allocation,隱含 Dirichlet 配置模型 )
  • 深度學習:ANNs、CNNs、RNNs、LSTM、GRU – BERT 和 GPT-3 更重要的先決條件
  • 擁抱臉變形(僅限 VIP)
  • 如何在 NLP 中使用 Python、Scikit-Learn、Tensorflow 等
  • 文本預處理、標記化( tokenization )、停止字彙( stopwords )、詞形還原( lemmatization ) 和詞幹提取( stemming )
  • 詞性 (POS,Parts-Of-Speech ) 標記和命名實體識別 ( NER,Named Entity Recognition )

要求

  • 安裝 Python,它是免費的!
  • 良好的 Python 程式設計技能
  • 可選:如果你想了解數學部分,線性代數和機率會很有幫助

課程說明

你好朋友!

歡迎來到機器學習:Python 中的自然語言處理(第 2 版)。

這是一個龐大的 4 合 1 課程,涵蓋:

1)向量模型和文本預處理方法

2)機率模型和馬可夫模型

3)機器學習方法

4)深度學習和神經網路方法

在涵蓋向量模型和文本預處理方法的第 1 部分中,你將了解為什麼向量在資料科學和人工智慧中如此重要。 你將了解將文本轉換為向量的各種技術,例如 CountVectorizer 和 TF-IDF,並且你將學習諸如 word2vec 和 GloVe 等神經嵌入方法的基礎知識。

然後,你將把學到的知識應用到各種任務中,例如:

  • 文本分類
  • 文檔檢索/搜索引擎
  • 文本摘要

在此過程中,你還將學習重要的文本預處理步驟,例如標記化( tokenization )、詞幹提取( stemming )和詞形還原( lemmatization )。

你將被簡要介紹經典的 NLP 任務,例如詞性標記( parts-of-speech tagging )。

在涵蓋機率模型和馬可夫模型的第 2 部分中,你將了解過去 100 年來所有資料科學和機器學習中最重要的模型之一。 除了 NLP 之外,它還被應用於許多領域,例如金融、生物資訊學和強化學習。

在本課程中,你將了解如何以各種方式使用此類機率模型,例如:

  • 構建文本分類器
  • 文章編織
  • 文本生成(生成一首詩)

重要的是,這些方法是了解最新的 Transformer (注意力)模型(例如 BERT 和 GPT-3)如何工作的必要先決條件。 具體來說,我們將了解與 BERT 和 GPT 的預訓練目標相對應的 2 個重要任務。

在涵蓋機器學習方法的第 3 部分中,你將了解更多經典的 NLP 任務,例如:

  • 垃圾郵件檢測
  • 情緒分析
  • 潛在語義分析(也稱為潛在語義索引)
  • 主題建模

本節將著重於應用而不是理論,這意味著你無需花費大部分精力學習各種 ML 演算法的細節,而是專注於如何將它們應用於上述任務。

當然,你仍然需要了解一些有關這些演算法的知識,以便了解正在發生的事情。 將使用以下演算法:

  • 樸素貝葉斯( Naive Bayes )
  • 邏輯迴歸
  • 主成分分析 (PCA) / 奇異值分解 (SVD)
  • 隱含 Dirichlet 配置模型 (LDA,Latent Dirichlet Allocation)

這些不僅僅是“任何”機器學習/人工智慧演算法,而是已經成為 NLP 的主要內容,因此是任何 NLP 課程的重要組成部分。

在涵蓋深度學習方法的第 4 部分中,你將了解可用於解決 NLP 任務的現代神經網路架構。 由於其強大的功能和靈活性,神經網路可用於解決課程中的上述任何任務。

你將了解:

  • 前饋人工神經網路 (ANN,Artificial Neural Networks)
  • 嵌入
  • 卷積神經網絡 (CNN,Convolutional Neural Networks )
  • 遞歸神經網絡 (RNN,Recurrent Neural Networks )

RNN 的研究將涉及 LSTM 和 GRU 等現代架構,這些架構已被 Google、Amazon、Apple、Facebook 等廣泛用於語言翻譯、語音識別和文本到語音等困難任務。

顯然,由於最新的 Transformer(例如 BERT 和 GPT-3)都是深度神經網路的例子,這部分課程是理解 Transformer 的必要前提。

感謝你的閱讀,希望很快在課程中與你見面!

目標受眾

  • 任何想學習自然語言處理 (NLP) 的人
  • 任何對人工智慧、機器學習、深度學習或資料科學感興趣的人
  • 任何想要超越 Udemy 上典型的僅限初學者的課程的人

講師簡介

Lazy Programmer Team 人工智慧與機器學習工程師  ( 更多講師主講課程介紹 )

今天,我把大部分時間花在了人工智慧和機器學習工程師身上,專注於深度學習,儘管我也以資料科學家、大數據工程師和全端軟體工程師而聞名。

我獲得了計算機工程碩士學位,主修機器學習( machine learning )和模式識別( pattern recognition )。

經驗包括作為資料科學家(優化點選率和轉換率)和大數據工程師(建立資料處理管道)的線上廣告和數位媒體。我經常使用的一些大數據技術有 Hadoop、 Pig、 Hive、 MapReduce 和 Spark。

我建立了深度學習模型來預測點進率和使用者行為,以及影像和訊號處理和文字建模。

我在推薦系統方面的工作應用了強化學習和協同過濾,我們使用 A/B 測試驗證了結果。

我曾經為哥倫比亞大學、紐約大學、杭特學院( Hunter College)和新學院( The New School )的大學和研究所教授資料科學、統計學、機器學習、演演算法、微積分、計算機圖形學和物理學。

很多企業都從我的網路程式設計經驗中受益匪淺。我負責所有的後端(伺服器)、前端(HTML/JS/CSS)和操作/部署工作。我使用的一些技術有: Python、 Ruby/Rails、 PHP、 Bootstrap、 jQuery (Javascript)、 Backbone 和 Angular。對於儲存/資料庫,我使用了 MySQL、 Postgres、 Redis、 MongoDB 等等。

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

使用 Notion 來做上課筆記?

udemy 的課程講座數量動輒上百個,如果你要使用 Notion 當作是線上課程的筆記輔助工具,為這些講座建立與組織筆記是一件耗時且沒效率的工作

為了解決這個問題,Soft & Share 開發一個 chrome extension – LN+ for udemy ,可以根據 udemy 線上課程的課程大綱幫你自動建立成 Notion 筆記資料庫並產生筆記與課程的雙向關聯讓您專心上課與寫筆記就好,不用再煩惱課程筆記要放哪裡的問題!

🛫了解 LN+ for udemy 更多功能介紹請參考 – Learning Notes Plus for udmy


報名參加課程

Sponsored by Udemy



🛫使用關鍵字連結獲得更多線上學習資訊?請參考這個網頁說明


追蹤 Soft & Share

✍ 不受社群推薦演算法影響,建議 Telegram/Discord/e-mail

幫我們個小忙!

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: