使用 Apache Spark 4 和 Python 來處理大數據 – 實際動手做!

講師 Frank 在 Amazon 和 IMDb ( 電影影評網站 ) 共有 9 年工作經驗,而且在分散式計算,資料探勘和機器學習領域擁有17項專利,這堂課他會帶你動手做大數據分析,而且當然是使用 IMDb 的資料並且在 Amazon 的雲端上執行,超過 20 個實踐範例,上這堂課最好已經有 Python 基礎,如果你不要使用 Python,講師也有錄製另一個課程是使用 Scala 的版本

從這 9 小時的課程,你會學到

  • 在 Spark 4 中使用數據幀( DataFrames  )和結構化串流
  • 使用 MLLib 機器學習庫來回答常見的資料探勘問題
  • 理解 Spark Streaming 如何讓你的處理即時連續傳輸的資料串流
  • 將大數據分析問題架構為 Spark 問題
  • 使用 Amazon 的 Elastic MapReduce 服務在具有 Hadoop YARN 的叢集上運行你的工作
  • 在桌上型電腦或是叢集上安裝和運行 Apache Spark
  • 使用 Spark 的彈性分散式資料集,透過多個 CPU 來處理和分析大型資料集合
  • 實現迭代演算法,例如使用 Spark 的廣度優先搜索
  • 學習 Spark SQL 如何讓你使用結構化資料
  • 調整和解決叢集上運行的大型作業
  • 使用廣播變數和累加器在 Spark 叢集上的節點之間共享資訊
  • 了解 GraphX 程式庫如何幫助解決網路分析問題

要求

  • 使用個人電腦。本課程使用Windows,但示範程式碼也可以在Linux上正常工作。
  • 有一些程式設計或是腳本編寫經驗。Python的經驗會幫助很多,但你可以在我們進行的時候學會。

課程說明

新的!針對 Spark 4 進行了更新,更多的實踐練習,以及對 DataFrames 和結構化串流的更加關注。

“大數據“分析是一個熱門和非常有價值的技能 – 本課程將教你大數據中最熱門的技術:Apache Spark。包括Amazon,使用公司包含 EBay,NASA JPLYahoo 都使用 Spark,透過一個可容錯 Hadoop 叢集快速從海量資料中提取有意義的資訊。你將學習這些相同的技術,在家裡使用自己的 Windows 系統。這比你想像的容易。

透過超過 20 個實踐示範,學習和掌握 Spark 建構數據分析問題的藝術,然後將其擴展與運行在本課程中介紹的雲端運算服務。你將從曾經在 Amazon 和 IMDb 工作的前工程師和資深經理學習

  • 了解 Spark 的彈性分散式資料儲存的概念
  • 使用 Python 快速開發和運行 Spark 作業
  • 將複雜的分析問題轉換為迭代或是多階段的 Spark 腳本
  • 使用 Amazon 的 Elastic MapReduce 服務擴展到更大的資料集
  • 了解 Hadoop YARN 如何在運算叢集上分散 Spark
  • 學習其它 Spark 技術,例如 Spark SQL,Spark Streaming 和 GraphX

在本課程結束時,你將運行程式碼,在雲端中幾分鐘內分析千兆字元的資訊。

本課程使用熟悉的 Python 程式設計語言;如果你想使用 Scala 從 Spark 獲得最佳性能,請參閱我的 “運用 Scala 的 Apache Spark – 親手做大數據分析”課程。

我們的課程會有一些樂趣。你會從一些簡單的範例使用 Spark 分析電影評分資料和一本書中的文字得到熱身。一旦你已經掌握了基礎知識,我們將轉向一些更複雜和有趣的任務。我們將使用一百萬部電影評分來查找彼此相似的電影,你甚至可能會發現一些你可能喜歡的新電影!我們將分析超級英雄的社交圖,並了解誰是最受歡迎的超級英雄,並開發一個系統來找到超級英雄之間的“分離程度”。所有的 Marvel 超級英雄在幾個維度內會被連接到難以置信的綠巨人?你會找到答案。

本課程非常實用;在我們編寫,分析和運行實際程式碼(無論是在自己的系統上,還是在雲端中使用 Amazon 的 Elastic MapReduce 服務)時,你都會花費大部分時間跟隨教師。8 小時的視訊內容包括在內,超過 40 個越來越複雜的真實的範例,你可以建立,運行和自己學習。根據自己的節奏,按照自己的時間表穿過它們。本課程概述了其他基於 Spark 的技術,包括 Spark SQL、Spark Streaming 和 GraphX。

享受這個課程吧!

“我跟 Frank Kane 學習了使用 Apache Spark 和 Python 來處理大數據 – 實際動手做! ,並幫助我為我的公司構建了一個很棒的大數據即服務平台。我推薦這門課程!”- Cleuton Sampaio De Melo Jr。

“這門關於使用 Python 在 Apache Spark 上運行大數據作業的課程非常棒。Frank 一如既往地講解得非常清晰,並指出了各種需要注意的事項,確保你正確設置。Spark 作業可能會出現很多故障或問題,例如內存不足,Frank 在這方面做得非常出色,他指出了許多常見問題。“ – James Gershfiel

“步驟簡單易懂,即使是初學者也能立即安裝 Spark 並運行範例。範例很好,而且很有趣。它提供了一套實用的範例,就像一個工具箱。“ – HansEV

“這門課程非常適合入門 Apache Spark 和 Python!Frank 的講解非常透徹,但又不失親切;他對每個新概念的解釋都通俗易懂,易於理解。“- Amiri McCain

目標受眾 

  • 具備一定軟體開發背景,並希望學習大數據分析領域最熱門技術的人士,不妨了解這門課。本課程從軟體開發的角度出發,重點介紹 Spark;我們會在課程中介紹一些機器學習和資料探勘的概念,但這並非重點。如果你想學習如何使用 Spark 來分析海量資料集並從中提取有意義的訊息,那麼這門課程非常適合你。
  • 如果你從未編寫過任何電腦程式或腳本,那麼這門課程目前可能不適合你。如果你是程式設計新手,我建議你先學習 Python 課程。
  • 如果你的軟體開發工作涉及或將涉及處理大量數據,那麼你需要了解 Spark。
  • 如果你正在為資料科學或大數據領域的新職業做準備,那麼 Spark 將是其中的重要組成部分。

講師簡介 

Sundog Education by Frank Kane 教授一百萬名學習者機器學習、人工智慧、AWS 和資料工程!

Sundog Education 的使命是讓世界各地的人們都能輕鬆掌握資料工程、資料科學、生成式 AI、AWS 和機器學習等領域極具價值的職業技能。我們匯集了一群專家講師,以人人都能負擔得起的價格,與您分享我們在這些新興領域的知識。

Sundog Education 由 Frank Kane 領導,隸屬於 Frank 的公司 Sundog Software LLC。 Frank 曾在 Amazon 和 IMDb 工作 9 年,負責開發和管理為數億用戶提供產品和電影推薦的自動化技術。作為 Amazon 的“標竿人物”,他擁有公司招聘決策的最終決定權,面試過 1000 多名候選人,並最終聘用和管理了數百名員工。他在分散式運算、資料探勘和機器學習領域擁有 26 項已授權專利。 2012 年,Frank 離開Amazon,創立了自己的公司 Sundog Software,該公司已為全球超過一百萬名學員提供機器學習、資料工程和工程師管理方面的培訓。

Frank Kane  Sundog Education 創辦人

Frank 曾在 Amazon 和 IMDb 工作了9年,負責開發和管理為數億用戶提供產品和電影自動推薦的技術。作為Amazon 的“標竿人物”,他對公司所有招聘決策擁有最終決定權,面試過 1000 多名候選人,並最終招聘和管理了數百名員工。他在分散式運算、資料探勘和機器學習領域擁有17項已獲授權的專利。 2012年,Frank 離開 Amazon,創立了自己的公司 Sundog Software,該公司已為全球超過一百萬名學員提供機器學習、資料工程和工程師管理方面的培訓。

由於學員人數眾多,我無法回覆私訊;請在課程的問答區提問。感謝你的體諒。

字幕:簡中、英文

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

  • Udemy 永久擁有課程 許多課程約 NT400(點擊連結看更多)
  • 年訂閱每月 NT350(再享特別優惠:年度訂閱首年享 25% 折扣) 🌈 悠遊 Udemy 的 26000+ 門課,最大化學習 ( 原價 NT635/月 )
  • Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
  • 手機上點選優惠連結看到的價格比電腦上看到的貴
  • $代表當地貨幣, 如在台灣為 NT
  • 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現

報名參加課程

Sponsored by Udemy


也許你會有興趣

不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

由 WordPress.com 建置.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading