機器學習的特徵工程

學習插補( imputation )、變量編碼( variable encoding )、離散化( discretization )、特徵提取( feature extraction )、如何處理日期時間( datetime )、離群值( outliers )等。

從這13.5 小時的課程，你會學到

學習多種缺失資料插補技術。
將分類變量轉換為數字，同時捕獲有意義的資訊。
了解如何處理不常見、稀有和看不見的類別。
了解如何使用偏態變數( skewed variables )。
將數值變量轉換為離散變量。
從變量中刪除異常值。
從日期和時間變量中提取有用的特徵。
學習在全球組織和資料競賽中使用的技術。
增加預處理資料和建構更強大的機器學習模型的技術庫。

要求

Python 安裝
Jupyter notebook安裝
Python 編碼技巧
在 Numpy 和 Pandas 方面有些經驗
熟悉機器學習演算法
熟悉 scikit-learn

課程說明

歡迎來到機器學習的特徵工程，這是在線提供的最全面的特徵工程課程。在本課程中，您將學習變量插補、變量編碼、特徵轉換、離散化以及如何從資料中創建新特徵。

掌握特徵工程和特徵提取。

在本課程中，您將學習多種特徵工程方法，這些方法可以讓您轉換資料並準備好訓練機器學習模型。具體來說，您將學習：

如何估算缺失資料
如何編碼分類變量
如何轉換數值變量並改變它們的分佈
如何進行離散化
如何刪除異常值
如何從日期和時間中提取特徵
如何從現有功能創建新功能

使用數學、統計學和領域知識創建有用的特徵

特徵工程是轉換現有特徵或創建新變量以用於機器學習的過程。原始資料不適合訓練機器學習演算法。相反，資料科學家將大量時間用於資料預處理。本課程將教授您需要了解的一切知識，讓您的資料為訓練模型做好準備。

雖然大多數線上課程會教你特徵工程的基礎知識，比如用均值插補變量或使用一種熱編碼轉換分類變量，但本課程會教你這些，以及更多。

在本課程中，您將首先學習最流行和廣泛使用的變量工程技術，例如均值和中值插補、one-hot 編碼、對數變換和離散化。然後，您將發現更高級的方法，這些方法可以在編碼或轉換變量時捕獲資訊以提高機器學習模型的性能。

您將學習金融中使用的證據權重等方法，以及如何在變量和目標之間創建單調關係以提高線性模型的性能。您還將學習如何從日期和時間變量創建特徵，以及如何處理具有很多類別的分類變量。

您將學習的方法在科學文章中有所描述，在資料科學競賽中使用，並且在組織中普遍使用。更重要的是，它們可以通過使用 Python 的開源庫輕鬆實現！

在整個講座中，您會發現每種技術的詳細解釋以及關於它們的優點、局限性和基本假設的討論，以及在 Python 中實現它們的最佳程式設計實踐。

在課程結束時，您將能夠根據變量特徵和您希望訓練的模型來決定您需要哪種特徵工程技術。而且，您還將能夠很好地測試各種轉換方法，並讓您的模型決定哪些方法最有效。

提升您在資料科學領域的職業生涯

您已經邁出了資料科學的第一步。您了解最常用的預測模型。您甚至已經訓練了一些線性迴歸或分類模型。在這個階段，您可能會開始發現一些挑戰：您的資料很髒，很多值丟失，一些變量不是數值的，而其他變量則極度傾斜。您可能還想知道您的程式碼是否高效和高性能，或者是否有更好的編輯程式方式。你在網上搜索，但找不到關於特徵工程的綜合資源。也許只是部落格？所以你可能會開始懷疑：科技公司是如何做事的？

在本課程中，您將找到這些問題的答案。在整個課程中，您將學習變量轉換不同方面的多種技術，以及如何使用 Python 以優雅、高效和專業的方式實現它們。您將利用 Python 開源生態系統的強大功能，包括 NumPy、Pandas、Scikit-learn 程式庫和用於特徵工程的特殊包：特徵引擎和類別編碼器。

到課程結束時，您將能夠將所有特徵工程步驟實施到一個優雅的管道中，這將使您能夠以最高效率將預測模型投入生產。

利用開源的力量

我們將使用 Pandas 和 Numpy 執行所有特徵工程方法，並將與 Scikit-learn、特徵引擎和類別編碼器的實現進行比較，突出每個程式庫的優點和局限性。隨著您在課程中的進步，您將能夠選擇您最喜歡的程式庫來執行您的專案。

有一個專用的 Python 筆記本，其中包含用於實現每個特徵工程方法的程式碼，您可以在專案中重複使用這些程式碼來加速機器學習模型的開發。

最全面的特徵工程線上課程

沒有一個地方可以去學習特徵工程。它涉及數小時的路絡搜索，以了解人們正在做什麼以充分利用他們的資料。

這就是為什麼本課程收集了世界範圍內用於特徵轉換的大量技術，這些技術是從 Kaggle 和 KDD 的資料競賽、科學文章以及講師作為資料科學家的經驗中學到的。因此，本課程提供了一個參考來源，您可以在其中學習新方法，還可以在需要時重新訪問修改變量所需的技術和程式碼。

本課程由一位在金融和保險領域使用機器學習經驗豐富的首席資料科學家講授，他還是一本書的作者和用於特徵工程的 Python 開源程式庫的首席開發人員。還有更多：

該課程不斷更新以包含新的特徵工程方法。
筆記本會定期刷新，以確保所有方法都使用最新版本的 Python 程式庫執行，因此您的程式碼永遠不會中斷。
該課程結合了視訊、演示文稿和 Jupyter 筆記本來解釋這些方法並展示它們在 Python 中的實現。
該課程的開發歷時四年，並在特徵工程領域不斷進行研究，為您帶來最新的技術、工具和趨勢。

想知道更多？繼續閱讀…

這門全面的特徵工程課程包含 100 多個講座，分佈在大約 10 小時的視訊中，所有主題都包括動手實踐的 Python 程式碼示例，您可以在自己的專案中參考、練習和重用這些程式碼示例。

請記住，該課程提供 30 天退款保證，因此您今天就可以毫無風險地註冊。

你還在等什麼？立即註冊並加入世界上最全面的機器學習特徵工程課程。

目標受眾

想要學習如何預處理資料集以建構機器學習模型的資料科學家。
希望學習更多機器學習特徵工程技術的資料科學家。
希望提高特徵工程編碼技能和程式編輯實踐的資料科學家。
軟體工程師、數學家和學者將職業轉向資料科學。
有興趣在資料競賽中試驗各種特徵工程技術的資料科學家
想要學習如何使用 Scikit-learn 和其他開源軟體套件進行特徵工程的軟體工程師。

講師簡介

Soledad Galli 資料科學家|講師|軟體開發者 ( 更多講師主講課程介紹 )

嘿，我是索爾。我是一名資料科學家和開源 Python 開發人員，對教學和程式設計充滿熱情。

我教授機器學習的中級和高級課程，涵蓋的主題包括如何改進機器學習管道、更好地設計和選擇功能、優化模型以及處理不平衡的資料集。

我是 Feature-engine 的開發者和維護者，這是一個用於特徵工程和選擇的開源 Python 程式庫，也是 Packt 的 “Python Feature Engineering Cookbook” 和 “Feature Selection in Machine Learning with Python” 書的作者。

我在 2018 年獲得了資料科學領袖獎，並在 2019 年被選為資料科學和分析領域的“領英之聲”之一。

我曾在金融和保險公司擔任資料科學家，開發並投入生產機器學習模型來評估信用風險、處理保險索賠和防止欺詐。

我喜歡分享有關資料科學和機器學習的知識。這就是我進行在線教學、創建和貢獻開源軟體、在聚會上發言、撰寫部落格和參與部落格的原因。

我獲得了生物學碩士學位、生物化學博士學位，並在倫敦大學學院和馬克斯普朗克研究所等知名機構擔任研究科學家超過 8 年的經驗。我還在布宜諾斯艾利斯大學教授生物化學 4 年多，並指導碩士和博士生。

請隨時在 LinkedIn 上與我聯繫，在 Twitter 上關注我，或訪問我們的網站以獲取有關機器學習的部落格。