Python 實踐叢集分析和非監督式機器學習

用於模式識別( pattern recognition )，資料探勘( data mining )， k-means 叢集和分層( hierarchical )叢集以及 KDE 的資料科學技術。

從這 8 小時的課程，你會學到

了解常規的 K-Means 演算法
理解並列舉 K-Means 叢集的缺點
理解 soft 或 fuzzy K-Means叢集演算法
以程式碼實現 Soft K-Means 叢集
理解分層( hierarchical )叢集
演算法的方式解釋分層凝聚叢集( Hierarchical Agglomerative Clustering )如何工作
將 Scipy 的分層群集程式庫( Hierarchical Clustering library )應用於資料
了解如何閱讀樹狀圖( dendrogram )
了解群集中使用的不同距離指標
了解單一鏈接、完整鏈接、Ward 鏈接和 UPGMA 之間的區別
理解高斯( Gaussian )混合模型以及如何將其用於密度估計
用 Python 程式碼編寫 GMM
解釋 GMM 何時等同於 K-Means 叢集
解釋期望最大化演算法
了解 GMM 如何克服 K-Means 的一些缺點
了解奇異共變異數( Singular Covariance )問題以及如何解決它

要求

了解如何使用 Python 和 Numpy 編程
安裝 Numpy 和 Scipy
矩陣運算、機率

課程說明

叢集分析( Cluster analysis )是無監督機器學習和資料科學的重要組成部分。

它對於資料探勘和大數據非常有用，因為它可以自動在資料中發現模式，而無需標籤，這與監督機器學習不同。

在現實環境中，你可以想像機器人或人工智慧並不總是能夠獲得最佳答案，或者可能沒有最佳正確答案。你希望機器人能夠自行探索世界，並透過尋找模式來學習。

你有沒有想過，我們如何取得監督機器學習演算法中使用的數據？

我們似乎總是有一個漂亮的 CSV 檔案或表格，其中包含 X 和對應的 Y。

如果你沒有親自參與資料收集，你可能沒有想過這一點，但總得有人來產生這些資料！

這些「Y」必須來自某個地方，而且很多時候這需要人工操作。

有時，您無法取得此類資訊，或取得這些資訊不可行或成本高昂。

但您仍然希望了解資料的結構。如果您正在進行資料分析，那麼自動化資料模式識別將非常寶貴。

這正是無監督機器學習發揮作用的地方。

在本課程中，我們首先將討論叢集。叢集( clustering. )不是基於標籤進行訓練，而是嘗試創建自己的標籤！我們將透過將相似的資料分組來實現這一點。

我們將討論兩種叢集( clustering )方法：K 均值叢集( k-means clustering )和層次叢集( hierarchical clustering )。

接下來，由於在機器學習中我們喜歡討論機率分佈，我們將討論高斯混合模型( Gaussian mixture models )和核密度估計( kernel density estimation )，其中我們將討論如何「學習」一組資料的機率分佈。

一個有趣的事實是，在某些條件下，高斯混合模型和 K 均值叢集完全相同！我們將證明這一點。

本課程中討論的所有演算法都是機器學習和資料科學中的重要內容，因此，如果您想了解如何透過資料探勘和模式提取自動發現資料中的模式，而無需人工標記數據，本課程非常適合您。

本課程的所有資料均免費。您可以在 Windows、Linux 或 Mac 上使用簡單的命令下載並安裝 Python、Numpy 和 Scipy。

本課程的重點是“如何建構和理解”，而不僅僅是“如何使用”。任何人都可以在閱讀一些文件後 15 分鐘內學會使用 API。這不是“記住事實”，而是透過實驗“親眼見證”。它將教您如何視覺化模型內部發生的事情。如果您想深入了解機器學習模型，那麼本課程非常適合您。

“如果您無法實現它，那麼您就不理解它”

或者正如偉大的物理學家理查德·費曼所說：“我無法創造的東西，我就無法理解。”
我的課程是唯一一門讓你從零開始學習如何實現機器學習演算法的課程。
其他課程會教你如何將資料匯入程式庫( library )，但你真的需要這三行程式碼的幫助嗎？
在對 10 個資料集進行同樣的操作後，你會發現你並沒有學到 10 件事。你只學到了一件事，只是重複了 10 遍同樣的 3 行程式碼…

建議的先決條件：

矩陣加法、乘法
機率
Python 程式設計：if/else、迴圈( loops )、列表、字典、集合
Numpy 編程：矩陣與向量運算、載入 CSV 檔案

我應該按照什麼順序學習您的課程？

請參閱「機器學習和人工智慧先修課程路線圖」講座（可在我的任何課程的常見問題中找到，包括深度學習預備知識：Python (V2+) 的 Numpy Stack）

目標受眾

對機器學習和資料科學感興趣的學生和專業人士
想要了解無監督機器學習和叢集分析的人
想要知道如何編寫自己的叢集程式碼的人
對資料探勘大數據集感興趣，想了解各種自動化模式的專業人員

講師簡介

Lazy Programmer Inc 資料科學家和大數據工程師

Lazy Programmer 是一位經驗豐富的線上教育者，對分享知識有著堅定不移的熱情。憑藉超過十年的經驗，他透過全面的課程和教程吸引了全球各地的受眾，徹底改變了資料科學和機器學習領域。

Lazy Programmer 擁有多學科背景，並擁有兩個令人矚目的碩士學位。他初入學術界，選擇攻讀電腦工程專業，專注於機器學習和模式識別。之後，他不畏懼任何界限，進軍統計學領域，探索其在金融工程中的應用。

作為該領域公認的先驅，在深度學習尚處於萌芽階段時，他便迅速擁抱了其強大的力量。作為先驅者之一，他無所畏懼地教授了首批深度學習線上課程之一，並由此躋身行業前列。

除了教育背景之外，Lazy Programmer 還擁有寶貴的實務經驗，這些經驗塑造了他的專業技能。他涉足線上廣告和數位媒體領域，取得了令人矚目的成果，將點擊率和轉換率推向新高，並為他效力的公司帶來了數百萬美元的收入。身為全端軟體工程師，他精通各種後端和 Web 技術，包括 Python、Ruby on Rails、C++、Scala、PHP、Javascript、SQL、大數據、Spark 和 Redis。

雖然他在資料科學和機器學習領域取得了令人讚嘆的成就，但懶惰程式設計師的求知欲遠不止於此。他對知識的熱情引領他探索藥物研發、生物資訊學和演算法交易等多個領域。他積極應對這些領域的挑戰和複雜性，努力發掘其潛力，並為它們的發展做出貢獻。

這位 Lazy Programmer 對學生始終如一地盡心盡力，並熱衷於將複雜的概念簡化，在線上教育領域堪稱一位舉足輕重的人物。他透過數據科學、機器學習、深度學習和人工智慧等課程，幫助有志於學習的學子自信地探索這些學科的複雜領域。

作為一名作家、導師和創新者，這位 Lazy Programmer 在資料科學、機器學習及其他領域留下了不可磨滅的印記。憑藉他能夠解開最複雜概念的神秘面紗的能力，他持續塑造下一代資料科學家，並激勵無數人踏上屬於自己的知識之旅。