資料工程師的 Azure Databricks 和 Spark:實作專案

使用 Databricks、PySpark、Spark SQL、Delta Lake、Unity Catalog、Azure Data Factory 進行 Formula1 賽車的真實世界專案

從這 20.5 小時的課程,你會學到

  • 你將學習如何使用 Azure Databricks 和 Spark Core 構建現實世界的資料專案。 本課程是使用真實世界資料教授的。
  • 你將獲得 Azure Databricks、Delta Lake、Spark Core、Azure Data Lake Gen2 和 Azure Data Factory (ADF) 方面的專業級資料工程技能
  • 你將學習如何在 Azure Databricks 中創建筆記本、儀表板、叢集、叢集池和作業
  • 你將學習如何使用 Azure Databricks 中的 PySpark 提取和轉換資料
  • 你將學習如何在 Azure Databricks 中使用 Spark SQL 轉換和分析資料
  • 你將了解資料湖( Data Lake )架構和 Lakehouse 架構。 此外,你還將學習如何使用 Delta Lake 實現 Lakehouse 架構。
  • 你將學習如何創建 Azure 資料工廠管道來執行 Databricks 筆記本
  • 你將了解如何創建 Azure 資料工廠觸發器來計劃管道以及監視它們。
  • 你將獲得通過 Azure 資料工程師助理認證考試 DP203 所需的 Azure Databricks 和資料工廠技能
  • 你將學習如何從 PowerBI 連接到 Azure Databricks 以創建報告
  • 你將全面了解 Unity Catalog 以及 Unity Catalog 提供的資料治理功能。
  • 你將學習使用支持 Unity Catalog 的 Databricks 工作區來實施資料治理解決方案。

要求

  • 提供了所有程式碼和分步說明,但以下技能將對你的旅程大有裨益
  • 需要基本的 Python 程式經驗
  • 需要基本的 SQL 知識
  • 了解雲端基礎知識將是有益的,但不是必需的
  • 需要 Azure 訂閱,如果你沒有訂閱,我們將在課程中創建一個免費帳戶

課程說明

課程自推出以來的重大更新

更新 3 – 新增第 25、26 和 27 節,包含 Unity Catalog。 Unity Catalog 是 Databricks 的最新功能,它為 Data Lakehouse 提供了統一的資料治理解決方案。這些章節涵蓋了 Unity Catalog 的各個面向以及使用專案實施的方法。

更新 2 – 新增第 6 和 7 節。更新第 8 節。這些變更旨在反映 Databricks 關於存取 Azure Data Lake 的最新建議。此外,這為使用 Azure 學生訂閱或企業訂閱且 Azure Active Directory 存取權限有限的學生提供了更好的解決方案來完成課程專案。

更新 1 – 更新第 3、4 和 5 節,以反映 Azure Databricks 的最新 UI 變更。此外,還包含 Databricks 近期新增至 Databricks 叢集的附加功能的課程。。

歡迎!

我期待幫助你學習雲端中最受歡迎的資料工程工具之一 Azure Databricks! 本課程的教學內容是使用 Azure Databricks 和 Spark 核心實施資料工程解決方案,用於分析和報告一級方程式賽車資料的現實專案。

這與 Udemy 中針對 Azure Databricks 的其他課程不同。 完成課程(包括所有作業)後,我堅信你將能夠自己啟動一個現實世界的資料工程專案,並精通 Azure Databricks。 我還提供了有關 Azure Data Lake Storage Gen2、Azure 資料工廠以及 PowerBI 的課程。 本課程的主要重點是 Azure Databricks 和 Spark 核心,但它也涵蓋了相關概念以及與提到的其他技術的連接。 請注意,本課程不涵蓋 Spark 的其他方面,例如 Spark 流和 Spark ML。 該課程還使用 PySpark 和 Spark SQL 進行教學; 它不涵蓋 Scala 或 Java。

該課程遵循現實世界專案實施的邏輯進展,解釋技術概念並同時構建 Databricks 筆記本。 儘管本課程並不是專門為教你通過 Azure 資料工程師助理認證考試 DP203 所需的技能而設計的,但它可以極大地幫助你獲得考試所需的大部分必要技能。

我珍惜你的時間,就像珍惜我自己的時間一樣。 因此,我將這門課程設計得快節奏、切題。 此外,該課程以簡單的英語授課,沒有行話。 我從基礎開始課程,在課程結束時,你將精通所使用的技術。

目前該課程教你以下內容

Azure 資料塊( Databricks )

  • 使用 Azure Databricks、Azure Data Lake Gen2、Azure 資料工廠和 Power BI 建構資料工程解決方案的解決方案架構
  • 創建和使用 Azure Databricks 服務以及 Azure 中的 Databricks 體系結構
  • 使用 Databricks 筆記本以及使用 Databricks 實用程式、神奇的命令等
  • 在筆記本之間傳遞參數以及創建筆記本工作流程
  • 創建、配置和監控 Databricks 叢集、叢集池和作業
  • 使用 Azure Key Vault 中存儲的機密在 Databricks 中安裝 Azure 存儲
  • 使用 Databricks 表( tables)、Databricks 檔案系統 (DBFS) 等
  • 利用 Delta Lake 實現 Lakehouse 架構的解決方案
  • 創建儀表板以視覺化輸出
  • 從 PowerBI 連接到 Azure Databricks 表

Spark (僅 PySpark 和 SQL)

  • Spark架構、資料源API和Dataframe API
  • PySpark – 將 CSV、簡單和複雜的 JSON 檔案作為 parquet 檔案/表引入資料湖。
  • PySpark – 過濾器、連接、簡單聚合、GroupBy、窗口函數等轉換。
  • PySpark – 創建本地和臨時視圖
  • Spark SQL – 創建資料庫、表和視圖
  • Spark SQL – 過濾、聯接、簡單聚合、GroupBy、窗口函數等轉換。
  • Spark SQL – 創建本地和臨時視圖
  • 使用分區實現完全刷新和增量加載模式

Delta Lake

  • Data Lakehouse 架構的出現和 Delta Lake 的作用。
  • 使用 PySpark 和 SQL 讀取、寫入、更新、刪除和合併到 Delta Lake
  • 歷史、時間旅行和真空
  • 將 Parquet 檔案轉換為資料檔案
  • 使用 Delta Lake 實現增量負載模式

Unity Catalog

  • 資料治理和 Unity 目錄概述
  • 創建 Unity Catalog Metastore 並使用 Unity Catalog 啟用 Databricks 工作區
  • 3 級命名空間和創建 Unity Catalog 物件的概述
  • 通過 Unity Catalog 配置和訪問外部資料湖
  • 使用 Unity Catalog 開發迷你專案,並了解 Unity Catalog 提供的關鍵資料治理功能,例如資料發現、資料審計、資料沿襲和資料訪問控制。

Azure 資料工廠

  • 創建管道來執行 Databricks 筆記本
  • 設計強大的管道來處理意外情況,例如丟失檔案
  • 在活動和管道之間創建依賴關係
  • 使用資料工廠觸發器安排管道定期執行
  • 監視觸發器/管道以檢查錯誤/輸出。

目標受眾

  • 尋找資料工程職業的大學生
  • 致力於其他學科並試圖轉向資料工程的 IT 開發人員
  • 目前正在使用本地技術或其他雲平台(例如 AWS 或 GCP)並希望學習 Azure 資料技術的資料工程師/資料倉儲開發人員
  • 希望了解 Azure 資料工程堆棧的資料架構師

講師簡介

Ramesh Retnasamy 最暢銷的數據和人工智慧工程講師 | 20萬+ 學生

您好!我是一名全職資深資料工程師和架構師,擁有超過 25 年的大型資料專案交付經驗,涉及科技、遊戲、金融、零售和政府等行業。

我曾在 Azure 和 AWS 等雲端平台以及本機系統上工作過。我擁有多項認證,包括 Microsoft Azure 和 Databricks 的資料工程認證。

我熱愛教學,並為學生的成功感到自豪。我的教學方法不同於傳統的 IT 培訓。我專注於實際專案,不僅講解概念,還幫助他們堅持實踐應用。我會提供最佳實踐指導,並幫助您建立適用於實際生產環境的解決方案。

我珍惜您的時間,也珍惜我自己的時間,因此我的課程內容重點突出、實用且不帶任何專業術語。所有課程均以簡單易懂的英語授課。完成我的課程後,您將具備開展實際專案所需的技能和信心,並為繼續學習和職業發展奠定堅實的基礎。

字幕:簡中、日本語、英文

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

  • Udemy 永久擁有課程 許多課程約 NT400(點擊連結看更多)
  • 年訂閱每月 NT350 🌈 悠遊 Udemy 的 26000+ 門課,最大化學習 ( 原價 NT635/月 )
  • Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
  • 手機上點選優惠連結看到的價格比電腦上看到的貴
  • $代表當地貨幣, 如在台灣為 NT
  • 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現

報名參加課程

Sponsored by Udemy


也許你會有興趣

不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

由 WordPress.com 建置.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading