大數據專業課程

在 6 門簡單的課程中學習基本的大數據方法。

關於此專業課程

經由瞭解大數據是如何組織、分析和解釋來推動更好的商業決策。把你的洞察力運用到現實世界的問題上你需要了解大數據以及它將如何影響你的事業嗎？這個專業課是為你準備的。通過親身體驗大數據科學家和工程師使用的工具和系統，你將瞭解大數據能夠提供什麼樣的洞察力。是否有程式設計經驗沒關係！

你將學習使用 Hadoop 的基礎知識，包括 MapReduce、 Spark、 Pig 和 Hive。通過課程中提供的程式碼，你將體驗如何執行預測建模和利用圖形分析來解決模型問題。這種專業課將幫助你準備提出關於資料的正確問題，與資料科學家進行有效的溝通，並對大型、複雜的資料集進行基本的探索。在與資料軟體公司 Splunk 合作開發的最後一個總整專案( Capstone Project )中，你將應用學到的對大數據技能做基本分析。

你將獲得的技能

Big Data	Neo4j	MongoDB
Apache Spark	Apache Hadoop	Mapreduce
Cloudera	資料建模	資料管理
Splunk	機器學習概念

字幕

英文

製作方

University of California, San Diego 加州大學聖地牙哥分校

加州大學聖地亞哥分校是一所學術引擎和經濟引擎，被《美國新聞與世界報道》評為十大公立大學之一。創新是我們之所以創立和我們行動的核心。在這裡，學生們認識到知識不僅僅是在課堂上獲得的，生活是他們的實驗室。

第 1 門課程大數據導論

有興趣增加你對大數據領域的知識嗎？這門課程是為那些資料科學的新手和有興趣理解為什麼大數據時代已經到來的人開設的。這是為想要熟悉大數據問題、應用程式和系統背後的術語和核心概念的人準備的。這是為那些想要開始思考大數據如何在他們的事業或職業生涯中有用的人準備的。它介紹了最常用的框架之一，Hadoop，它使大數據分析變得更容易和更能夠獲取 – 增加了資料改變我們世界的潛力！

在本課程的最後，你將能夠:

描述大數據的前景，包括現實世界大數據問題的例子，包括大數據的三個關鍵來源: 人、組織和感測器。
解釋大數據的每個 v (數量 volumn、速度velocity、多樣性variety、準確性veracity、效價valence和價值value) ，以及為什麼每個 v 都影響資料的收集、監測、儲存、分析和報告。* 使用 5 個步驟建構分析結構，從大數據中獲取價值。* 識別什麼是大數據問題，什麼不是大數據問題，並能夠將大數據問題重新定義為資料科學問題。
說明用於可擴充大數據分析的架構元件和程式設計模型。
總結 Hadoop 堆疊核心元件的特點和價值，包括 YARN 資源和作業管理系統、 HDFS 檔案系統和 MapReduce 程式設計模型。
使用 Hadoop 安裝並執行一個程式！

本課程是為資料科學新手開設的。不需要以前的程式設計經驗，儘管安裝應用程式和使用虛擬機器( VM )的能力是完成實際操作任務所必需的。

＊硬體需求: (a)四核處理器(VT-x 或 AMD-V 推薦支援) ，64位元; (b) 8 GB RAM; (c) 20 GB 磁碟空閒。
如何查詢硬體資訊:
Windows : 點選“開始”按鈕開啟系統，右鍵點選電腦，然後點選“屬性”
Mac : 點選蘋果選單，點選“關於這台 Mac”

過去3年購買的大多數 8 GB RAM 的電腦將滿足最低要求。你將需要一個高速網際網路連線，因為你將下載檔案高達 4GB 的大小。

＊軟體需求: 本課程依賴於幾個開源軟體工具，包括 Apache Hadoop。所有所需軟體均可免費下載及安裝。軟體需求包括: Windows 7 + ，Mac OS x 10.10 + ，Ubuntu 14.04 + 或 CentOS 6 + VirtualBox 5 + 。

第 2 門課程大數據建模與管理系統

一旦你確認一個需要分析的大數據問題，你如何使用大數據解決方案來收集、儲存和組織你的資料？在本課程中，你將體驗各種資料類型和適合每種內型的管理工具。你將能夠從大數據管理系統和分析工具的角度描述大量新的大資料平台演變背後的原因。通過指導性的實踐教程，你將熟悉使用實時和半結構化資料示例的技術。討論的系統和工具包括: AsterixDB，HP Vertica，Impala，Neo4j，Redis，SparkSQL。本課程提供從現有未開發資料來源中提取價值和發現新資料來源的技術。

在本課程的最後，你將能夠:

識別自己工作和日常生活問題中的各種資料元素
解釋為什麼你的團隊需要設計一個大數據基礎設施計劃和資訊系統設計
識別各種類型資料需做頻繁做的資料操作
選擇一個資料模型以適應資料的特點
應用處理資料串流的技術
區分傳統的資料庫管理系統和大數據管理系統
理解為什麼有這麼多資料管理系統
為一個網路遊戲公司設計一個大數據資訊系統

這門課程是為那些資料科學的新手開設的。建議完成前一門課“大數據導論”。不需要以前有程式設計經驗，儘管安裝應用程式和使用虛擬機器的能力是完成實際操作任務所必需的。

＊硬體與軟體需求請參考第一門課。

第 3 門課程大數據整合與處理

在課程結束時，你將能夠:

從示例資料庫和大數據管理系統中檢索資料
描述資料管理操作和大數據處理模式之間的連結，以便在大規模分析應用程式中加以利用
確定大數據問題何時需要資料整合
在 Hadoop 和 Spark 平台上執行簡單的大數據整合和處理

本課程適用於資料科學新手。建議完成大資料介紹。不需要以前有程式設計經驗，儘管安裝應用程式和使用虛擬機器的能力是完成實際操作任務所必需的。

＊硬體與軟體需求請參考第一門課。

第 4 門課程基於大數據的機器學習

想要理解你收集的大量資料嗎？需要將資料驅動的決策合併到流程中嗎？本課程提供了一個機器學習技術的概述，以探索、分析和利用資料。我們將介紹一些工具和演算法，你可以使用這些工具和演算法來建立從資料中學習的機器學習模型，並將這些模型擴充到大數據問題。

在課程結束時，你將能夠:

• 設計一種利用機器學習過程中的步驟來利用資料的方法。
• 應用機器學習技術，為建模探索和準備資料。
• 識別機器學習問題的類型，以便應用適當的技術。
• 利用廣泛使用的開源工具從資料中學習，以建立模型。
• 使用 Spark 上的可擴充機器學習演算法分析大數據問題。

軟體需求: Cloudera VM，KNIME，Spark

第 5 門課程大數據圖形分析

想要了解你的資料網路結構以及它在不同條件下是如何變化的嗎？好奇地想知道如何識別圖表中密切相互作用的叢集( clusters )？你是否聽說過圖形分析( graph analytics )領域的快速發展，並且想了解更多？本課程提供你圖形分析領域的全面概述，如此你將瞭解建模、儲存、檢索和分析圖形結構化資料的新方法。

完成本課程後，你將能夠將問題建模到圖形資料庫中，並以可伸縮的方式在圖形上執行分析任務。更好的是，你將能夠應用這些技術來理解資料集( data sets )對於你自己的專案的重要性。

＊硬體與軟體需求請參考第一門課。

第 6 門課程大數據畢業專案

歡迎來到大數據的總整專案( capstone project )！在這個高潮專案中，你將使用這個專業系列前面所有課程學到的工具和方法建立一個大數據生態系統。你將分析一個模擬大數據的資料集，這些大資料來自於大量的使用者，這些使用者正在玩我們虛構的遊戲“趕上紅鶴”( “Catch the Pink Flamingo” )。在為期五週的總整專案中，你將學習典型的大數據科學步驟，包括獲取、探索、準備、分析和報告。在前兩週，我們將介紹資料集，並指導你使用 Splunk 和 Open Office 等工具進行一些探索性分析。然後我們將進入更具挑戰性的大數據問題，需要更先進的工具，包括 KNIME、Spark 的 MLLib 和 Gephi。最後，在第五週，也就是最後一週，我們將向你展示如何將所有這些內容結合在一起，建立引人入勝的報告和簡報演示。由於我們與專注於分析機器生成的大數據的軟體公司 Splunk 的合作，擁有頂級專案的學習者將有資格到 Splunk 展示，並與 Splunk 的招聘人員和工程領導層會面。