資料科學家於大數據 + Python 的 PySpark 必要知識

學習如何使用 PySpark 中的 Python 為機器學習做大數據角力,由行業專家教授

報名參加課程

從這 16 小時的課程,你會學到

  • 在分散式框架( Apache Spark )上使用帶有大資料的 Python
  • 在現實的諮詢專案中使用真實的資料集
  • 親身實踐用大資料解決真正的問題
  • 整合一個使用者介面( UI )來監視你採用 MLflow 培訓和開發過程的模型
  • 尖端資料科學演算法的理論與應用
  • 用 Python 實現 Spark 中的操作、連線和聚合資料框架( Dataframes )
  • 學習如何將 Spark 的機器學習技術應用於分散式資料框架( Dataframes )
  • 交叉驗證和超參數調整
  • 頻繁模式資料探勘技術( Frequent Pattern Mining Techniques )
  • 分類與迴歸技術
  • 自然語言處理( NLP )的資料角力( Data Wrangling )
  • 如何在 Spark 中編寫 SQL 查詢

要求

  • 熟悉 Python 是有幫助的,但不是必需的
  • 一些資料科學的背景是有幫助的,但不是必需的

課程說明

本課程是為資料科學家(或有抱負的資料科學家)提供的,希望能在運用真實世界的資料集和應用程式設計時獲得實用的 PySpark (Python for Apache Spark)的培訓!通過參加這門課程,你將獲得超過 100 個講座、數百個範例問題和測驗,以及超過 100,000 行的程式碼!

在本課程結束之前,我將為你們提供成為 Pyspark 專家所需的基本知識,這些知識是基於我作為資料科學家為美國國稅局、美國勞工部和美國退伍軍人事務部等客戶提供諮詢的豐富經驗而設計的。

我為了真實世界的應用安排講座和程式設計練習,你將理解 PySpark 實際上是如何在工作上運用。我們還將深入到我自己編寫的自訂函數中,這些函數可以讓你在 MLlib API 快速啟動並執行,讓開始構建機器學習模型變得輕而易舉!我們還將觸及 MLflow,這將幫助我們在自訂的使用者介面管理和追蹤我們的模型培訓和評估過程,此將使你在就業市場更具競爭力!

每個部分都會有一個概念回顧講座,跟著結構化問題集的活動寫程式,以幫助你把學到的東西付諸行動,並給你解決方案以備萬一你遇到問題時可參考。此外,真實世界的諮詢專案已經在每個部分附加確實的資料集提供,以幫助你思考如何應用我們談過的每一個概念。

最後,我寫了一些濃縮的複習筆記和所有課程內容的講義,以便你們以後參考。這將是超級有用的,一旦你開始做你的第一個 PySpark 程式設計工作時!

我等不及要在講座上看到你了!我真的希望你們能喜歡這個課程!我們第一節課見!

目標受眾

  • 對學習 PySpark 感興趣的資料科學家
  • 希望加強他們程式設計技能的 PySpark 開發人員
  • 需要使用大數據的 Python 開發人員
  • 想要學習如何處理大數據的資料科學家

講師簡介

Layla AI 經驗豐富的資料科學家顧問和熱情的指導者  ( 更多講師主講課程介紹 )

Layla AI 正迅速成為 Udemy 在資料科學領域的主要女教師之一。2012 年,她開始了資料科學家的職業生涯,當時她正在攻讀量化分析學碩士學位,自 2016 年以來,她一直擔任聯邦顧問,為美國國稅局、退伍軍人事務部和勞工部等客戶服務。

她的技能主要集中在預測建模、人工智慧、自然語言處理、主題模型、趨勢分析、頻繁模式資料探勘、機器學習、深度學習、叢集分析,並於 2020 年開始教學。

她的主要程式語言是 Python,但是她在非物件導向語言(如 SAS 和 SQL)方面也有豐富的經驗。

然而,最值得注意的是,她是一位熱情的老師,她喜歡與世界分享她的知識!

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To


報名參加課程

Sponsored by Udemy

也許你會有興趣

 歡迎使用 App / Email | Telegram 訂閱 網站更新

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: