資料科學 : 用 Python 做自然語言處理 (NLP)

完整的實用自然語言處理( NLP )指南,應用:解密密碼、垃圾郵件檢測、情感( sentiment )分析、文章調整器( article spinner )和潛在語意( latent semantic )分析。

課程介紹影片

從這 12 小時的課程,你會學到

  • 使用遺傳演算法和馬可夫( Markov )模型語言建模編寫自己的密碼解密演算法
  • 使用 Python 編寫你自己的垃圾郵件檢測程式碼
  • 使用 Python 編寫你自己的情感分析程式碼
  • 使用 Python 執行潛在語意( latent semantic )分析或潛在語意索引
  • 了解如何使用 Python 中編寫自己的文章調整器( article spinner )

要求

  • 安裝 Python,它是免費的!
  • 有信心編寫 Python 程式碼
  • 安裝 Python 的資料庫,如Numpy、Scipy、Scikit-learn、Matplotlib 和 BeautifulSoup
  • 參加我的免費 Numpy 先修課程(它是免費的,沒有任何藉口!)了解 Numpy、Matplotlib、Pandas 和 Scikit-Learn,以及機器學習基礎知識
  • 懂更好:如果你想了解數學部分,線性代數機率會很有幫助

課程說明

在本課程中,你將使用自然語言處理( Natural Language Processing, NLP ) 建構多種實用系統。NLP 是處理文本( text )和語音( speech )的機器學習和資料科學的分支。本課程不是我深入學習系列的一部分,因此它不包含任何必備數學 – 只需會用 Python 寫程式即可。本課程的所有材料都是免費的。

在簡要討論 NLP 是什麼以及它可以做什麼之後,我們將開始建構非常有用的東西。我們要建立的第一件事就是垃圾郵件檢測器。由於類似這樣的系統,相比於 21 世紀初,你可能收到相對少少很多的垃圾郵件。

接下來我們將在 Python 中為情感分析建構一個模型。這可以讓我們給一段文字分配一個分數,告訴我們它有多積極或消極。人們使用 Twitter 上的情緒分析來預測股票市場。

我們將介紹一些實用的工具和技術,如 NLTK(natural language toolkit,自然語言工具包)庫和潛在語意分析( latent semantic analysis, LSA )。

最後,我們通過建構一個文章調整器( article spinner )。 這是一個非常棘手的問題,即使是目前最受歡迎的產品也沒有完美地解決。 這些講座旨在讓你開始,並給你想法,你可以自己改進。 一旦掌握,你可以將其用作搜索引擎優化( SEO )或搜索引擎優化工具。 到處的網路行銷人員將愛你,如果你能為他們解決這方面的問題!

本課程著重於“如何建構和理解”,而不僅僅是“如何使用”。 讀完一些文件後,任何人都可以在 15 分鐘內學會使用 API。 這不是關於 “記住事實”,而是關於通過實驗 “親眼見證”。 它會教你如何視覺化模型內部發生的事情。 如果你不僅僅需要膚淺地看看機器學習模型,本課程將很適合你。

“If you can’t implement it, you don’t understand it”

或者正如偉大的物理學家理 Richard Feynman 所說:“我無法創造我不懂的東西”。

我的課程是你將學習如何從頭開始實施機器學習演算法的唯一課程

其他課程會教你如何將資料插入程式庫中,但你真的只需要 3 行程式碼的幫助嗎?

在用 10 個資料集做同樣的事情之後,你將意識到你並沒有學到 10 件事。 你只學了一件事,重複了同樣的 3 行程式碼做 10 次……

注意:

所有的課程中的程式碼都可以從我的github下載:

/lazyprogrammer/machine_learning_examples

在目錄中:nlp_class

確保你總是用“ git pull ”,如此你總是拿到最新版本!

必要條件 / 假設你已具備以下知識 :

  • 微積分
  • 線性代數
  • 機率
  • Python 程式設計 : if/else, loops, lists, dicts, sets
  • Numpy 程式設計:矩陣和矢量操作,載入一個 CSV 檔
  • Sci-Kit Learn API
  • 熟悉 PCA、馬爾可夫模型、邏輯迴歸

提示(通過課程):

  • 以 2x 觀看。
  • 拿手寫筆記。 這將大大增加你記住訊息的能力。
  • 寫下方程。 如果你不這樣做,我保證它看起來像亂碼。
  • 在討論板上提出許多問題。 越多越好!
  • 意識到大多數練習將需要幾天或幾週才能完成。
  • 自己編寫程式碼,不要只是坐在那裡看我寫程式。

修課順序

  • 查看講座 “ What order should I take your courses in?” (可在我的任何課程的附錄中找到,或請參考先修課

目標受眾

  • 學習者可以使用循環,列表,字典等方式編寫Python代碼。
  • 希望了解更多機器學習但不想做大量數學的學生
  • 對將機器學習和NLP應用於垃圾郵件檢測,網絡營銷和情感分析等實際問題感興趣的專業人員
  • 本課程不適合那些認為課程中所列出的任務和方法過於基本的人。
  • 本課程不適用於那些尚未對機器學習和Python編碼有基本理解的人。
  • 本課程不適用於那些不知道(給出部分標題)每個任務的目的是什麼。 例如。 如果你不知道什麼“垃圾郵件檢測”可能會有用,那麼你遠遠不能接受這門課程。

講師簡介

Lazy Programmer Inc 資料科學家和大數據工程師

我是一名資料科學家、大數據工程師和全端軟體工程師。

我有電腦工程的碩士,專長為機器學習和模式辨識。

我曾在網路廣告和數位媒體企業擔任過資料科學家和大數據工程師,圍繞所謂的資料建構各種高流量的 web 服務。我曾經使用 Hadoop / Pig / MapReduce 創建新的大數據管道,也曾建立機器學習模型來預測點擊率,使用線性迴歸、Bayesian Bandits 和協同過濾 ( collaborative filtering )建立新聞推薦系統,並使用A / B測試驗證結果。

我曾在大學部與研究所教授資料科學、統計學、機器學習、演算法、微積分、電腦圖學和物理學,任職的學校如哥倫比亞大學、紐約大學、Hunter 學院和 The New School。

有多家企業已從我的 Web 程式設計專業知識中受益。我做所有的後端(伺服器)、前端(HTML / JS / CSS)和運營/佈署工作。 我使用的技術包含:Python、Ruby / Rails、PHP、Bootstrap、jQuery(Javascript)、Backbone 和  Angular。至於儲存/資料庫,我採用 MySQL、Postgres、Redis、MongoDB等。

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

  • 點選 ✨ 週四週五兩天大多課程 NT320 優惠連結 ( 需登入 Udemy 取得 )| Udemy 永久擁有課程 ( 在電腦瀏覽器登入,點選“優惠連結”後再回想要的課程介紹中點選“報名參加課程”即可取得 )
  • Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
  • 手機上點選優惠連結看到的價格比電腦上看到的貴
  • $代表當地貨幣, 如在台灣為 NT
  • 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現

報名參加課程

Sponsored by Udemy


也許你會有興趣


不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading