fbpx

資料科學 2022:資料預處理和特徵工程

使用 Pandas 和 Scikit learn 成為機器學習資料清理和特徵工程方面的專家

從這 6 小時的課程,你會學到

  • 預處理資料需要 60%-70% 的時間。 該課程為提供你將原始資料轉換為模型就緒資料的整個工具箱
  • 成為 Python Pandas 和 scikit-learn 資料處理和特徵工程方面的專家
  • 使用各種 python 套件(如 pandas_profiling、category-encoders 等)高效地預處理資料。
  • 使用 Scikit-learn 學習編寫程式、插補縮放( imputation scaling )等特徵工程技術
  • 學習 Scikit-learn Pipeline, Column transformers 讓程式碼可讀且高效
  • 學習編寫 Python 函數,它包裝了各種 pandas 功能以自動執行任務
  • 將分析輸出到文本檔案或 Excel(以程式設計方式將多個資料框輸出到不同的試算表,並將多個資料框輸出到工作簿中的同一個試算表)

要求

  • 對 python 的初級理解是首選但不是強制性的
  • 你需要安裝 Anaconda 並運行 jupyter notebook

課程說明

現實生活中的資料是不乾淨的。 這就是為什麼預處理任務在 ML 建模過程中花費大約 70% 的時間的原因。 此外,缺乏專門的課程來處理這項具有挑戰性的任務

這裏介紹“資料科學:資料清理和特徵工程”,是門完全專注於機器學習建模最繁瑣任務的核心課程——“資料預處理”。

如果你想提高你的資料預處理技能以獲得更好的高性能 ML 模型,那麼本課程適合你!

本課程由經驗豐富的資料科學家設計,他們將幫助你了解預處理的原因和方式。

我將逐步引導你進入資料預處理的過程。 在每個部分,你都將發展新技能並提高對預處理具有挑戰性的方法的理解,以克服這一挑戰

它的結構如下:

第 1 部分 – EDA(探索性資料分析):深入了解你的資料集

第 2 部分 – 資料清理:根據洞見清理資料

第 3 部分 – 資料操作:生成特徵、子集、處理日期等。

第 4 部分 – 特徵工程 – 為建模準備好資料

第 5 部分 – 使用 Pandas Darframe 編寫函數

本課程適用於:

  1. 任何有興趣提高資料預處理效率的人
  2. 正在學習資料科學家並希望更好地了解資料的各種細微差別及其處理方法的人
  3. 想要提高資料預處理技能的新興資料科學家
  4. 任何對預處理部分資料科學感興趣的人

本課程不適合想要學習機器學習演算法的人

目標受眾

  • 想要提高預處理和特徵工程技能的初學者 ML 愛好者和 ML 工程師
  • 已是程式設計師但想提高技能並熟悉 Pandas 和 Scikit Learn 等軟體套件的人

講師簡介

Anupam Khare 資料科學家和資料工程專業人士

一位經驗豐富的專業人士,在機器學習和資料分析方面擁有 3 年的諮詢經驗和 6 年以上的經驗。 我熱衷於解決業務問題,並相信資料和領域知識是解決任何業務問題的兩大支柱。 我曾在醫療保健和 BFSI 領域、信用風險建模、索賠分析和代位求償分析方面工作過。 我的專長是 Python、機器學習和 NLP

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

使用 Notion 來做上課筆記?

udemy 的課程講座數量動輒上百個,如果你要使用 Notion 當作是線上課程的筆記輔助工具,為這些講座建立與組織筆記是一件耗時且沒效率的工作

為了解決這個問題,Soft & Share 開發一個 chrome extension – LN+ for udemy ,可以根據 udemy 線上課程的課程大綱幫你自動建立成 Notion 筆記資料庫並產生筆記與課程的雙向關聯讓您專心上課與寫筆記就好,不用再煩惱課程筆記要放哪裡的問題!

🛫了解 LN+ for udemy 更多功能介紹請參考 – Learning Notes Plus for udmy


報名參加課程

Sponsored by Udemy


🛫使用關鍵字連結獲得更多線上學習資訊?請參考這個網頁說明


幫我們個小忙!

使用 e-mail 追蹤 Soft & Share

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: