資料探勘專業課程

關於此課程

分析文本、發現模式、視覺化。 解決現實世界的資料探勘挑戰。

資料探勘專業課程教授如何對結構化和非結構化資料做資料探勘的技術,結構化資料有明確定義的模式( schema ),非結構化資料則以自然語言文字形式存在。本課程主題包含模式探索 (pattern discovery )、分類 ( clustering )、文字粹取 (text retrieval )、文字探勘和分析 ( text mining and analytics ) 以及資料視覺化(data visulization)。 Capstone 專案任務是使用 Yelp 的餐廳評估資料集來解決真實世界的資料探勘挑戰。

到官方網站了解本課程與上課

本專業課程 2 – 5 是 計算機科學-資料科學碩士 的線上課程組成部分。你可以在開始此專業課程之前或之後申請學位課程。

MasterCS-DS.png

製作方  

University of Illinois at Urbana-Champaign

伊利諾伊大學厄巴納-香檳分校英語:University of Illinois at Urbana-Champaign,簡稱U of I,亦簡稱作UIUC)位於伊利諾州幽靜的雙子城:厄巴納—香檳市,是一所享有世界聲望的一流公立研究型大學。學校創建於1867年,是美國「十大聯盟」(Big Ten)的創始成員,學校繼承了創建初期作為工業大學的傳統,長久以來一直是全美理工科方面極有名望的高等學府之一。學校不僅在科學界和工業界創造了璀璨的成果,也培養了諸多的科學泰斗和政治家,成為美國大學的『公立常春藤』。 (源自維基百科)

第 1 門課程  資料視覺化

課程概述

本課程介紹在資料視覺化時須考量的參數與各種事項,提供各種形式的資料視覺化的方法並說明人類與電腦對這些資料的觀點有何不同。

主題包含:

  • 如何有效地做視覺化?  包含將資料指派給適當的圖表元素,採用 glyphs、平行座標與串流圖(streamgraphs),並運用設計與色彩的原理讓你的視覺化更動人和有效。
  • 如何讓視覺畫的圖表現出資料各項間的關係? 你將用座標來描繪出資料集沒有特別提供的資料。

課程最後將讓你融合所學,為大型的資料及與儀表板設計出你自己的視覺化系統。 你將創作並說明你由資料集做出的視覺化,也將運用使用者介面設計的技術製作出有效的視覺化系統。

程式設計的作業並不真的需要有程式設計的知識如果你會用工具產生圖形。

更多

第 1 週 :

Course Orientation , The Computer and the Human

第 2 週 :

Visualization of Numerical Data

第 3 週 :

Visualization of Non-Numerical Data

第 4 週 :

The Visualization Dashboard


第 2 門課程  文本取回和搜尋引擎

課程概述

近年來,自然語言文本資料大幅增長,其中包括網頁 、新聞文章、科學文獻、電子郵件、企業文件和社交媒體,如部落格文章、論壇貼文、產品評論和推文。文本資料是唯一的,因為它們通常由人而不是電腦系統或感應器直接產生,對於發現關於人們的意見和偏好的知識特別有價值,除了其他許多種我們用文字去編碼的知識。

本課程將涵蓋搜索引擎技術,這些技術在涉及文本資料的任何資料探勘應用中都起著重要作用,有兩個原因。首先,雖然原始資料對於任何特定問題而言可能很大,但它通常是相關資料的相對較小的子集,且搜索引擎是在大文本中快速發現小部分相關文本資料很重要的工具。第二,分析師需要搜索引擎的幫助以解釋資料中發現的任何模式 (pattern ),讓他們檢查相關的原始文本資料,了解任何發現的模式。你將學習文本檢索的基本概念、原理和主要技術,這是搜索引擎的基礎科學。

更多

第 1 週 :

Orientation ,Natural Language Processing Techniques

第 2 週 :

Vector Space Model ,TF Transformation,Doc Length Normalization,Implementation of TR Systems,System Implementation – Inverted Index Construction,System Implementation – Fast Search

第 3 週 :

Evaluation of TR Systems

第 4 週 :

Probabilistic Retrieval Model ,Statistical Language Model,Query Likelihood Retrieval Function,Smoothing Methods

第 5 週 :

Feedback Techniques in Information Retrieval ,Web Search Engines

第 6 週 :

Learning to Rank,Future of Web Search,Recommender Systems, Course Summary


第 3 門課程  文本探勘與分析

課程概述

本課程將涵蓋探勘和分析文本資料以發現有趣模式 、提取有用知識和支持決策的主要技術,重點是統計方法,可以一般應用於任何自然語言的任意文本資料,不需要或只需要最少人力即可做到。

文本資料的詳細分析需要理解自然語言文本的能力,這對於電腦而言是一項艱鉅的任務。然而,許多統計方法已顯示可以運作得不錯,雖”淺”卻可靠地分析文本資料,找出模式與發現知識。你將學習文本探勘的基本概念、原理和主要演算法及其潛在的應用。

更多

第 1 週 :

Orientation,Text Mining and Analytics,Natural Language Content Analysis,Text Represntation,Word Association Mining and Analysis, Paradigmatic Relation Discovery

第 2 週 :

Syntagmatic Relation Discovery,Topic Mining and Analysis,Probabilistic Topic Models

第 3 週 :

Probabilistic Topic Models,Probabilistic Latent Semantic Analysis,Latent Dirichlet Allocation ( LDA )

第 4 週 :

Text Clustering,Text Categorization

第 5 週 :

Text Categorization,Opinion Mining and Sentiment Analysis

第 6 週 :

Opinion Mining and Sentiment Analysis,Text-Based Prediction,Contextual Text Mining


第 4 門課程  資料探勘的模式發現

課程概述

了解資料探勘的一般概念以及基本的方法和應用。然後潛入資料探勘的一個子領域:模式發現 (Pattern Discovery )。深入學習資料探勘中模式發現的概念、方法和應用。我們還將介紹資料驅動的詞組探勘方法和一些有趣的模式發現應用。本課程為你提供學習技能和內容的機會,以實踐和參與大規模交易資料的可擴展模式發現的多種方法,討論模式評估措施,以及研究探勘各種模式 、順序模式 (sequential patterns ) 和子圖形模式 (sub-graph patterns ) 的方法。

更多

第 1 週 :

Orientation,Concepts of Pattern Discovery, 3 Approaches for Mining Frequent Patterns

第 2 週 :

Pattern Evaluation,Measures Used in Pattern Analysis,Null Invariance Measures, Comparison of Null-Invariant Measures,Mining Multi-Level Associations,Mining Multi-Dimensional Associations,Mining Quantitative Associations,Mining Negative Correlations,Mining Compressed Patterns

第 3 週 :

Mining Sequential Patterns,Concepts and Methods for Mining Spatiotemporal and Trajectory Patterns ( pattern mining application)

第 4 週 :

Mining Quality Phrases from Text Data (pattern mining application) ,Two Newer Methods for Phrase Mining: ToPMine and SegPhrase,Frequent Pattern Mining in Data Streams,Pattern Discovery for Software Bug Mining,Pattern Discovery for Image Analysis,Advanced Topics on Pattern Discovery


第 5 門課程   資料探勘的群集分析

課程概述

發現群分析 ( cluster ) 的基本概念,然後研究一組典型的群集方法、演算法和應用。這包括如 k-means的分割法、如BIRCH的分層方法和如 DBSCAN / OPTICS等基於密度的的方法。此外,學習群集驗證和群集品質評估的方法。最後,請參閱應用程式中的集群分析範例。

更多

第 1 週 :

Orientation,Overview and Requirements of Cluster Analysis,Requirements and Challenges,A Multi-Dimensional Categorization,Typical Clustering Methodologies,Clustering Different Types of Data,User Insights and Clustering,Proximity Measure for Symmetric vs Asymmetric Binary Variables,Distance between Categorical Attributes Ordinal Attributes and Mixed Types,Proximity Measure between Two Vectors Cosine Similarity,Correlation measures between Two Variables Covariance and Correlation Coefficient

第 2 週 :

Partitioning-Based Clustering Methods,K-Means Clustering Method,The K-Medoids Clustering Method,The K-Medians and K-Modes Clustering Methods,Kernel K-Means Clustering,Agglomerative Clustering Algorithms, Divisive Clustering Algorithms,Extensions to Hierarchical Clustering,BIRCH,ClusterEng

第 3 週 :

CURE,CHAMELEON,Probabilistic Hierarchical Clustering,Density-Based and Grid-Based Clustering Methods,DBSCAN,OPTICS,STING,CLIQUE

第 4 週 :

Methods of Clustering Validation,Clustering Evaluation Measuring Clustering Quality,Constraint-Based Clustering,External Measures,Internal Measures,Relative Measures,Cluster Stability,Clustering Tendency


第 6 門課程  資料探勘專案

課程概述

注意:在開始本課程之前,你應該完成本專業的所有其他課程。

這個為期六週的資料探勘專業專案課程將允許你從前面學的內容(包括模式發現、群集、文本檢索、文本探勘和視覺化)中應用已知的資料探勘演算法和技術來解決有趣的現實世界資料探勘的問題。具體來說,你將在 Yelp 的餐廳評價資料探勘,運用你從前面課程中學到的所有知識和技能來從這些資料集探勘出有趣且有用的知識。 該專案的設計強調:1)在實際工作環境中模擬資料探勘的工作流程; 2)整合多個個別課程涵蓋的不同探勘技術; 3)嘗試不同的方法來解決問題,加深對技術的理解;和 4)允許你創造性地提出和探索你自己的想法。

該專案的目標是分析和探勘一個大型 Yelp 平價資料集,以發現有用的知識,幫助人們用餐的決定。該專案將包括以下產出:

  1. 意見視覺化:探索和視覺化評價內容,以了解人們的評論內容。
  2. 美食地圖建設:探勘資料集,了解不同類型美食的分佈景觀及其相似之處。
  3. 發現流行的美食:探勘資料集,以發現特定美食的共同/受歡迎的菜餚。
  4. 推薦餐廳幫助人們決定在哪裡用餐:探勘資料集,針對特定的菜餚做餐廳排名,並預測餐廳的衛生條件。

從用戶的角度來看,美食地圖可以幫助他們了解有哪些美食選擇,了解各種美食的整體概況及其關係。一旦他們決定要嘗試哪種菜,他們會有興趣知道這些美食的熱門菜餚,並決定吃什麼菜餚。最後,他們需要選擇一家餐館。因此,推薦基於特定菜餚的餐館將是有用的。此外,預測餐廳的衛生條件也將有所幫助。

通過完成這些任務,你將獲得資料探勘中經典的工作流程經驗,其中包括資料預處理、資料探勘、資料分析、改進分析方法以及結果呈現。你將有機會結合來自不同課程的多種演算法來完成相對複雜的探勘任務,並通過不同的方式進行實驗,以解決問題,了解最佳解決方案。我們將提出具體的方法,但我們非常鼓勵你去探索自己的想法,因為開放式探索,在本課程設計上,為本專案的目標。

你需要為每一任務交付簡要報告讓你的同學評分。 也必須提交最終的綜合報告,這也將由你的同學評分。

更多

第 1 週 :

Orientation,Exploration of a Data Set

第 2 週 :

Cuisine Clustering and Map Construction

第 3 週 :

Dish Recognition

第 4 週 :

Popular Dishes and Restaurant Recommendation

第 5 週 :

Predicting the hygiene condition of a restaurant

第 6 週 :

Final Report

到官方網站了解本課程與上課

你可能會有興趣

好課程與好朋友分享,按以下分享鍵與朋友一起學習吧! 

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: