fbpx

MEAP 搶鮮電子書 – Spark in Action, Second Edition

Contents

書籍簡介

我想說,這是我讀過關於 Spark 最好的一本書。

Kelvin Johnson

Spark 分散式資料處理平台提供了一個易於實現的工具,可以從任何資料來源獲取、串流傳輸和處理資料。

在 Spark in Action, Second Edition,第二版,您將學習如何利用 Spark 的核心功能和令人難以置信的處理速度,可開發的應用程式包含即時運算、延遲評估和機器學習。 擁有 Spark 技能在全球企業中是一種熱門的需求人才,通過 Spark 強大而靈活的 Java APIs,你可以在不學習 Scala 或 Hadoop 的情況下獲得所有的好處

不像很多為資料科學家寫的書籍,Spark in Action, Second Edition 是為資料工程師和軟體工程師設計的,他們希望使用 Spark 掌握資料處理,而不必學習複雜的新語言和工具生態系統。 相反,您將學習應用現有的 Java 和 SQL 技能來應對實際的、真實的挑戰

關於這個技術

Spark 是一個強大的通用分析引擎,可以處理分散在數千台伺服器叢集中的大量資料。 經過優化,可以在記憶體中執行,這個令人印象深刻的框架可以比大多數基於 Hadoop 的系統處理資料的速度快100倍。 Spark 對 SQL 的支援,以及它快速執行重複查詢和快速適應修改查詢的能力,使其非常適合於機器學習,在這個大資料時代非常重要。 無論你使用的是 Java、 Scala 還是 Python,Spark 都提供了簡單的 APIs 來訪問它的核心功能

關於這本書

Spark in Action, Second Edition 是一本全新的書,教給您在 Spark 中建立端到端分析流水線( pipelines )所需的一切知識。 通過使用大量有用的圖形從頭開始重寫,您將瞭解 DAGs 和資料流的作用、”lazy evaluation”的優點以及從檔案、資料庫和串流中獲取資料

通過使用精心設計的基於 Java 的範例,您將深入研究 Spark SQL、與 Python 的介面以及快取和檢查點資料。 在這個過程中,您將學習如何與常見的企業資料技術(如 HDFS)和檔案格式(如 Parquet、 ORC 和 Avro)進行互動

您還將發現有趣的 Spark 範例,比如互動式報告、機器學習流水線,甚至監視線上遊戲中的玩家。 不需要數學博士學位就可以快速瀏覽一下的機器學習技術! 所有的範例都可以在 GitHub 上找到,你可以在學習的過程中進行探索和改編。 對懂Spark 的開發人員的需求是如此之大,他們是當今業界中薪資最高的人之一

書籍內容包含

  • 基於 Spark Java APIs,使用許多使用真實資料集和情境的範例
  • 基於 Spark v2.3的範例從檔案、資料庫和串流獲取資料
  • Building custom ingestion process
  • 建立客制化的資料獲取流程
  • 使用 Spark SQL 查詢分散式資料集
  • 部署 Spark 應用程式
  • 快取和你的資料檢查點
  • 資料科學家可使用的 Python 介面
  • 應用機器學習
  • Spark 使用案例,包括 Lumeris、 CERN 和 IBM

目標讀者

適合初級到中級的開發人員和使用 Java 程式設計資料工程師。 不需要任何函數語言程式設計、 Scala、 Spark、 Hadoop 或大數據方面的經驗

關於作者

Jean Georges Perrin 是一位經驗豐富的顧問和企業家,他熱衷於所有資料,他是法國第一位IBM Champion,這是他連續十年獲得的榮譽。 Jean Georges管理過許多軟體和資料工程師團隊。

關於 MEAP 搶鮮電子書

一本書可能需要一年或更長的時間才能寫出來,那麼你今天如何學習熱門新技術? 答案是MEAP,即 Manning Early Access 計劃。 在 MEAP 中,你可以逐次閱讀章節方式閱讀一本書當書還在進行撰寫中,一旦完成,即可獲得最終的電子書。 如果你預訂實體書籍,你必須在上架到商店之前等很久。更詳細的 MEAP 請參考 https://www.manning.com/meap-program


書籍網址

你可能會有興趣

 歡迎使用 e-mail 訂閱 Soft & Share 

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: