想要學習Big Data, 要如何入門?

在Soft & Share的Slack channel forum-datamachlearn看到一個很不錯的對話, 跟大家分享一下

各位前輩好,最近正在接觸有關Big Data 的相關領域,想請問有建議哪些基礎要特別先加強的嗎? 小弟理工背景的

@ricky (Soft & Share資料分析與機械學習討論群組版主) : 蠻高興在過去一段時間,看到有些朋友提出應該如何開始BigData之旅,我本身非科班出身、也非在純BigData行業工作,但工作上的問題有九成都是在處理機器學習演算法,所以想提供一些想法~並拋磚引玉~
我覺得主要可以將這個領域的基礎切割成七個部分,你可以考量你的專長與未來生涯規劃的契合度,選擇不會過於理想化又能滿足自己技能培養的學習路線:
 
1. 【問題抽象】(俗稱的抽象升維/歸類降維)在資料分析上就是要決定是否要提高資料維度/降低資料維度,這很考驗你對於特定領域背景的了解,因為有些維度的資料可能不易蒐集(例如無法和現有車子結合的新零件,就無法讓駕駛員開車測試零件,這類專業的背景知識)。
2. 【蒐集資料】 蒐集資料不是那麼容易的事情,尤其不同領域的蒐集方法不同,怎樣蒐集到
(a) 具有代表性的資料
(b) 資料數值級距具有合理範圍
(c) 資料樣本多少算夠
(d) 在a-c滿足下,如何提升資料分析速度
3. 【特徵選擇】資料分析的目標就是希望得到資料表現出來的特徵,如何得到一個好的資料特徵,把顯著特徵留下、把不顯著的特徵打掉並縮小問題再來分析,就需要
(a) 統計檢驗
(b) 訊息嫡
(c) 貝氏分析來建構SOP
4. 【訓練模型】各種資料分析模型都有參數需要調整(例如學習速率、模糊邏輯參數、模型複雜度)怎麼要根據進來的資料調整參數,發展出一套應對發法。
5. 【模型診斷】模型診斷主要處理資料分析中的
(a) 過擬合和欠擬合
(b) 誤差分析(誤差源自模型?還是資料?還是特徵?)
6. 【複合模型】如果你知道你要的解決問題,可以透過將模型進行組合(例如先進A模型再把結果都到B模型)達成一個模型的模型(複合模型)來提高資料分析的精確度,並讓結果更穩定(而且效能又不會變得太慢)
7. 【運行佈署】講那麼多,重點還是再如何將資料分析過程佈署到運行系統中,同時運行速度、資源消耗速度、穩定程度等如何控制和出狀況怎麼用將就之計先將就將就。
想cue很多連結和文獻…. 但先大家輕鬆聊吧~~~~
 
@mhwong2007 : 最近在做計劃,才知道業界在做 data mining 有一套標準流程:CRISP-DM

歡迎加入Soft & Share團購社團, 我們會透過這個社團發起電子書籍, 開發工具團購

喜歡我們的分享嗎? 記得使用以下社群分享按鈕分享給您的社群朋友吧!

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading