fbpx

資料科學 : 用 Python 做自然語言處理 (NLP)

完整的實用自然語言處理( NLP )指南:垃圾郵件檢測、情感( sentiment )分析、文章調整器( article spinner )和潛在語意( latent semantic )分析。

課程介紹:English 简中

從這 5.5 小時的課程,你會學到

  • 使用 Python 編寫你自己的垃圾郵件檢測程式碼
  • 使用 Python 編寫你自己的情感分析程式碼
  • 使用 Python 執行潛在語意( latent semantic )分析或潛在語意索引
  • 了解如何使用 Python 中編寫自己的文章調整器( article spinner )

要求

  • 安裝 Python,它是免費的!
  • 有信心編寫 Python 程式碼
  • 安裝 Python 的資料庫,如Numpy、Scipy、Scikit-learn、Matplotlib 和 BeautifulSoup
  • 熟悉 PCA、馬爾可夫模型、邏輯迴歸

課程說明

在本課程中,你將使用自然語言處理( Natural Language Processing, NLP ) 建構多種實用系統。NLP 是處理文本( text )和語音( speech )的機器學習和資料科學的分支。本課程不是我深入學習系列的一部分,因此它不包含任何必備數學 – 只需會用 Python 寫程式即可。本課程的所有材料都是免費的。

在簡要討論 NLP 是什麼以及它可以做什麼之後,我們將開始建構非常有用的東西。我們要建立的第一件事就是垃圾郵件檢測器。由於類似這樣的系統,相比於 21 世紀初,你可能收到相對少少很多的垃圾郵件。

接下來我們將在 Python 中為情感分析建構一個模型。這可以讓我們給一段文字分配一個分數,告訴我們它有多積極或消極。人們使用 Twitter 上的情緒分析來預測股票市場。

我們將介紹一些實用的工具和技術,如 NLTK(natural language toolkit,自然語言工具包)庫和潛在語意分析( latent semantic analysis, LSA )。

最後,我們通過建構一個文章調整器( article spinner )。 這是一個非常棘手的問題,即使是目前最受歡迎的產品也沒有完美地解決。 這些講座旨在讓你開始,並給你想法,你可以自己改進。 一旦掌握,你可以將其用作搜索引擎優化( SEO )或搜索引擎優化工具。 到處的網路行銷人員將愛你,如果你能為他們解決這方面的問題!

本課程著重於“如何建構和理解”,而不僅僅是“如何使用”。 讀完一些文件後,任何人都可以在 15 分鐘內學會使用 API。 這不是關於 “記住事實”,而是關於通過實驗 “親眼見證”。 它會教你如何視覺化模型內部發生的事情。 如果你不僅僅需要膚淺地看看機器學習模型,本課程將很適合你。

注意:

所有的課程中的程式碼都可以從我的github下載:

/lazyprogrammer/machine_learning_examples

在目錄中:nlp_class

確保你總是用“ git pull ”,如此你總是拿到最新版本!

必要條件 / 假設你已具備以下知識 :

  • 微積分
  • 線性代數
  • 機率
  • Python 程式設計 : if/else, loops, lists, dicts, sets
  • Numpy 程式設計:矩陣和矢量操作,載入一個 CSV 檔
  • Sci-Kit Learn API
  • 熟悉 PCA、馬爾可夫模型、邏輯迴歸

提示(通過課程):

  • 以 2x 觀看。
  • 拿手寫筆記。 這將大大增加你記住訊息的能力。
  • 寫下方程。 如果你不這樣做,我保證它看起來像亂碼。
  • 在討論板上提出許多問題。 越多越好!
  • 意識到大多數練習將需要幾天或幾週才能完成。
  • 自己編寫程式碼,不要只是坐在那裡看我寫程式。

修課順序

  • 查看講座 “ What order should I take your courses in?” (可在我的任何課程的附錄中找到,包括免費的 Numpy 課程)

目標受眾

  • 學習者可以使用循環,列表,字典等方式編寫Python代碼。
  • 希望了解更多機器學習但不想做大量數學的學生
  • 對將機器學習和NLP應用於垃圾郵件檢測,網絡營銷和情感分析等實際問題感興趣的專業人員
  • 本課程不適合那些認為課程中所列出的任務和方法過於基本的人。
  • 本課程不適用於那些尚未對機器學習和Python編碼有基本理解的人。
  • 本課程不適用於那些不知道(給出部分標題)每個任務的目的是什麼。 例如。 如果你不知道什麼“垃圾郵件檢測”可能會有用,那麼你遠遠不能接受這門課程。

講師簡介

Lazy Programmer Inc 資料科學家和大數據工程師

我是一名資料科學家、大數據工程師和全端軟體工程師。

我有電腦工程的碩士,專長為機器學習和模式辨識。

我曾在網路廣告和數位媒體企業擔任過資料科學家和大數據工程師,圍繞所謂的資料建構各種高流量的 web 服務。我曾經使用 Hadoop / Pig / MapReduce 創建新的大數據管道,也曾建立機器學習模型來預測點擊率,使用線性迴歸、Bayesian Bandits 和協同過濾 ( collaborative filtering )建立新聞推薦系統,並使用A / B測試驗證結果。

我曾在大學部與研究所教授資料科學、統計學、機器學習、演算法、微積分、電腦圖學和物理學,任職的學校如哥倫比亞大學、紐約大學、Hunter 學院和 The New School。

有多家企業已從我的 Web 程式設計專業知識中受益。我做所有的後端(伺服器)、前端(HTML / JS / CSS)和運營/佈署工作。 我使用的技術包含:Python、Ruby / Rails、PHP、Bootstrap、jQuery(Javascript)、Backbone 和  Angular。至於儲存/資料庫,我採用 MySQL、Postgres、Redis、MongoDB等。

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

優惠資訊

如何購買這門課程比較划算?可以參考課程合購優惠方案


報名參加課程 

Sponsored by Udemy

也許你會有興趣

 歡迎使用 e-mail 訂閱 Soft & Share 

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: