規模化的資料科學-挑戰真實世界大數據

經由本套裝的3個課程精通計算機科學的、統計的與資訊科學的資料科學

關於此課程

學習規模化的資料管理，評估大數據技術，設計有效的視覺化。

此專業課程涵蓋資料科學中級內容。你將學習實作可規模化的 SQL 和 NoSQL 資料管理解決方案，資料探勘、演算法以及實用的統計和機器學習概念的實踐經驗。你還將學習視覺化資料和溝通結果，探索在處理大數據時遇到的法律和道德問題。在最後的Capstone專案中 (此專案是我們與數位實習平台Coursolve合作開發的)，你將運用新技能於現實世界的資料科學專案。

到官方網站了解本課程與上課

製作方

華盛頓大學 The University of Washington

在美國和國際上，推動資料科學核心領域的領導者，領域涵蓋計算機科學、統計學、以人為本的設計和應用數學。

位於美國華盛頓州西雅圖的大學。創建於1861年，是美國西岸最古老的大學，也是美國西北部最大的大學。

2017年USNews世界大學排名第11位，2017年世界大學學術排名(ARUW)第15位，醫學與計算機科學研究所居全美頂尖(全美第1位,第6位)。諾貝爾獎得主13位。擁有超過500棟建築，26座圖書館，校地達兩千萬平方英尺，藏書達750萬冊。

第 1 門課程規模化的資料處理：系統與演算法

課程概述

資料分析取代了資料收集成為循證決策的瓶頸 – 我們正被繁多的資料淹沒。從大型、錯雜和噪音紛擾的資料提取知識不僅需要強大的計算資源，而且還需要能有效使用這些資料的程式抽象(programming abstractions)。過去十年出現的抽象（abstractions）結合了來自平行資料庫、分散式系統和程式語言的想法，創建新式可規模化的資料分析平台，為實際規模的資料科學打下基礎。

在這個課程中，你將學習相關系統的總體樣貌，他們所依賴的原則、權衡，以及如何根據你的要求評估其效用。你將學習如何從計算機科學研究的前沿衍生出實用的系統，以及哪些系統正在進行中。雲端計算、 SQL 和 NoSQL 資料庫、 MapReduce 及其產生的生態系統， Spark 及其同時代者，以及圖形和陣列的專業系統將被涵蓋。

你還將學習資料科學的歷史和背景，術語所指的技能、挑戰和方法，以及如何架構化資料科學專案。

學習目標：

描述與資料科學專案相關的常見模式 (patterns) 、挑戰和方法，以及它們與相關領域的專案有何不同。
識別和使用與可規模化的資料操縱相關的程式模型，包括關係代數、 MapReduce 和其他資料流模型。
使用適合大規模分析的資料庫技術，包括驅動平行資料庫，平行查詢處理和資料庫內分析的概念
評估關鍵價值的儲存和 NoSQL 系統，用類似的系統、儲存空間上重要範例的細節和未來趨勢來說明如何在它們間權衡。
用 MapReduce “思考” 以有效地為包括 Hadoop 和 Spark 在內的系統編寫演算法。你將了解它們的局限性、設計細節，它們與資料庫的關係，以及它們演算法的相關生態系統，延展和在 Spark 寫程式的語言。
描述用於圖形 (graphs)、陣列 (arrays) 和流 (streams) 的專業大數據系統的整體樣貌。

第 1 週 : Data Science Context and Concepts

第 2 週 : Relational Databases and the Relational Algebra

第 3 週 : MapReduce and Parallel Dataflow Programming

第 4 週 : NoSQL: Systems and Concepts ， Graph Analytics

第 2 門課程實用預測分析：模型和方法

課程概述

統計實驗設計和分析是資料科學的核心。在本課程中，你將設計統計學實驗，並使用現代方法分析結果。你還將探索解釋統計論據的常見陷阱，特別是與大數據相關的。總而言之，本課程將幫助你內化一套實用有效的機器學習方法和概念的核心集，並將其應用於解決一些現實世界的問題。

學習目標：

設計有效的實驗並分析結果
使用重採樣方法來製定明確的和可靠的統計論點，而不調用深奧符號
解釋和應用日益複雜的核心分類方法（規則、樹木、隨機森林）和相關的優化方法（梯度下降和變數）
解釋並應用一套無監督的學習概念和方法
描述大型圖形分析的常見慣用語，包括結構查詢、周遊和遞歸查詢、PageRank和社區檢測

第 1 週 : Practical Statistical Inference

第 2 週 : Supervised Learning

第 3 週 : Optimization

第 4 週 : Unsupervised Learning

第 3 門課程溝通結果：視覺化、倫理重現性

課程概述

重要提示：本課程中的第二個作業涵蓋了雲端的圖形分析的主題，你將使用 Elastic MapReduce和 Pig 語言對大約 600GB 的中等大資料集進行圖形分析。為了完成此作業，你需要使用Amazon Web Services（AWS）。亞馬遜慷慨地提供在本課程中向每位學員高達$ 50 的免費AWS折扣，以便你完成作業。有關如何獲得這免費折扣的更多詳情，請參閱課程中歡迎訊息以及作業本身。請注意，亞馬遜、華盛頓大學和 Coursera不能償還你的任何費用，如果你花超過$50 的雲端服務。

雖然我們認為這項作業在本課程中有很好的學習經驗，但我們了解到，一些學習者可能無法或不願意使用AWS。我們無法為不完成需要使用AWS的作業的學習者頒發課程證書。因此，如果你不能或不願意使用AWS，你不應該選擇正式修課獲得課程證書的付費，因為你將無法在這種情況下成功完成課程。

做出預測還不夠！有效的資料科學家知道如何說明和解釋其結果，並將調查結果準確地傳達給利益相關者，以便做業務決策。資料視覺化是計算機科學的研究領域，通過將感知、認知和演算法聯繫起來，利用人類視覺皮層的巨大帶寬來研究定量結果的有效溝通。在本課程中，你將學習識別、設計和使用有效的視覺化。

只是因為你可以做出預測並說服別人採取行動並不意味著你就應該這麼做。在本課程中，你將探討圍繞大數據的倫理考量，以及這些考量如何開始影響政策和實踐。你將學習使用技術保護隱私的基本限制和新興的資料科學家行為準則。你還將了解資料科學中重現性的重要性，以及商業雲如何幫助支持可重複性研究，即使涉及大量資料集、複雜計算基礎設施或兩者的實驗。

學習目標：

設計和評斷視覺化
解釋大數據和資料科學相關的隱私、倫理和治理方面的最高工藝
運用雲端計算以可重複的方式分析大型資料集。

第 1 週 : Visualization

第 2 週 : Privacy and Ethics

第 3 週 : Reproducibility and Cloud Computing

第 4 門課程規模化的資料科學 – Capstone專案

課程概述

在Capstone，學生將參與一個真實世界的專案，要求他們應用整個資料科學管道的技能：準備、組織和轉換資料、建構模型和評估結果。通過與 Coursolve 的合作，每個 Capstone 專案都與合作利益相關者相關聯，他們對你的成果有既得利益，並渴望在實際環境中佈署。這些專案沒有既定答案，結果並沒有預先設定 – 你有可能需要忍受歧義和負面結果！但是，我們相信這樣的經驗對你很有幫助，將更好的把你準備好面對實際的資料科學專案。