Contents
本課程將教你使用 Pandas 和 Scikit-learn 進行機器學習資料清理和特徵工程。將學習將原始資料轉換為模型就緒資料所需的整個流程。你將成為 Pandas 和 Scikit-learn 資料處理和特徵工程專家, 並使用各種Python 套件高效地預處理資料。
課程還包含學習編寫用於插值、縮放和特徵工程等的程式碼,並學習使用Scikit-learn Pipeline和Column Transformer使程式碼更具可讀性和效率。也將學習編寫 Python 函式將 Pandas 功能自動打包以執行任務,並將分析輸出到文字檔案或Excel。
從這 6 小時的課程,你會學到
- 預處理資料需要 60%-70% 的時間。 該課程為提供你將原始資料轉換為模型就緒資料的整個工具箱
- 成為 Python Pandas 和 scikit-learn 資料處理和特徵工程方面的專家
- 使用各種 python 套件(如 pandas_profiling、category-encoders 等)高效地預處理資料。
- 使用 Scikit-learn 學習編寫程式、插補縮放( imputation scaling )等特徵工程技術
- 學習 Scikit-learn Pipeline, Column transformers 讓程式碼可讀且高效
- 學習編寫 Python 函數,它包裝了各種 pandas 功能以自動執行任務
- 將分析輸出到文本檔案或 Excel(以程式設計方式將多個資料框輸出到不同的試算表,並將多個資料框輸出到工作簿中的同一個試算表)
要求
- 對 python 的初級理解是首選但不是強制性的
- 你需要安裝 Anaconda 並運行 jupyter notebook
課程說明
現實生活中的資料是不乾淨的。 這就是為什麼預處理任務在 ML 建模過程中花費大約 70% 的時間的原因。 此外,缺乏專門的課程來處理這項具有挑戰性的任務
這裏介紹“資料科學:資料清理和特徵工程”,是門完全專注於機器學習建模最繁瑣任務的核心課程——“資料預處理”。
如果你想提高你的資料預處理技能以獲得更好的高性能 ML 模型,那麼本課程適合你!
本課程由經驗豐富的資料科學家設計,他們將幫助你了解預處理的原因和方式。
我將逐步引導你進入資料預處理的過程。 在每個部分,你都將發展新技能並提高對預處理具有挑戰性的方法的理解,以克服這一挑戰
它的結構如下:
第 1 部分 – EDA(探索性資料分析):深入了解你的資料集
第 2 部分 – 資料清理:根據洞見清理資料
第 3 部分 – 資料操作:生成特徵、子集、處理日期等。
第 4 部分 – 特徵工程 – 為建模準備好資料
第 5 部分 – 使用 Pandas Darframe 編寫函數
本課程適用於:
- 任何有興趣提高資料預處理效率的人
- 正在學習資料科學家並希望更好地了解資料的各種細微差別及其處理方法的人
- 想要提高資料預處理技能的新興資料科學家
- 任何對預處理部分資料科學感興趣的人
本課程不適合想要學習機器學習演算法的人
目標受眾
- 想要提高預處理和特徵工程技能的初學者 ML 愛好者和 ML 工程師
- 已是程式設計師但想提高技能並熟悉 Pandas 和 Scikit Learn 等軟體套件的人
講師簡介
Anupam Khare 資料科學家和資料工程專業人士
一位經驗豐富的專業人士,在機器學習和資料分析方面擁有 3 年的諮詢經驗和 6 年以上的經驗。 我熱衷於解決業務問題,並相信資料和領域知識是解決任何業務問題的兩大支柱。 我曾在醫療保健和 BFSI 領域、信用風險建模、索賠分析和代位求償分析方面工作過。 我的專長是 Python、機器學習和 NLP
英文字幕:有
- 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To
- 點選這個✨優惠連結✨ 課程特價 | Udemy 永久擁有課程 NT390 起( 在電腦瀏覽器登入,點選“優惠連結”後再回想要的課程介紹中點選“報名參加課程”即可取得 )
- Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
- 手機上點選優惠連結看到的價格比電腦上看到的貴
- $代表當地貨幣, 如在台灣為 NT
- 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現