fbpx

閱讀筆記 – 職場對資料科學家最常列出的要求技能

文章網址

The Most in Demand Skills for Data Scientists

筆記摘要

資料科學家應該具備很多技能 – 機器學習、電腦科學、統計學數學資料視覺化溝通深度學習。 如此要學的程式語言、架構和技術不勝枚舉。 想要成為各大公司想雇用的資料科學家? 要如何安排,對自己做有效的投資呢?

本文作者研究了美國熱門的職業相關網站 LinkedInIndeedSimplyHiredMonsterAngelList 到 2018年10月10日的所有資訊,做出的統計,並與 2017 年 Glassdoor 對資料科學家工作的研究比較,並結合 KDNuggets’ usage survey ,獲得以下結果。

一般技能要求 (以下%是出現於工作列表要求技能的平均出現百分比)

70%+ 分析

65%+ 機器學習

60%+ 統計

50%+ 電腦科學

45%+ 溝通

40%+ 數學

30%+ 資料視覺化

20%+ 人工智慧( AI )

15%+ 深度學習( Deep Learning )

15%+ 自然語言處理( NLP )

15%+ 軟體開發

10%+ 神經網路

5%+   專案管理

5%+   軟體工程

5%+   資料工程

資料科學家的工作主要是能從資料洞見觀瞻,所以分析能力與利用機器學習做正確預測的能力為首要兩大要求技能。

這裡有個你需要注意的技能-溝通,這是許多職位普遍要求的技能,但在我們傳統教育反而不是很注重。資料科學家需要能多方收集資訊,密切與他人合作,且要能將其看到的洞見傳達給所有相關者。

技術技能要求

70%+ Python

60%+ R

50%+ SQL

30%+ Hadoop

25%+ Spark

25%+ Java

25%+ SAS

20%+ Tableau

15%+  Hive

10%+  Scala

10%+  AWS

10%+  C++

10%+  Matlab

5%+   Tensorflow

5%+   C

5%+   Excel

5%+   NoSQL

5%+   Linux

5%+   Azure

5%+   Scikit-learn

資料科學最重要的程式語言是 Python, 這種語言很容易上手,且大多數資料科學的工具都與這程式語言相容。 R 的需求緊追 Python 之後。 SQL 也是必要技能,這是與關聯資料庫( relational databases )互動的主要方法。

Apache Hadoop 是一個開源軟體平臺,用於分散式儲存和分散式處理由商用硬體建構的計算機叢集上的超大型資料集。Apache Spark 是一種快速的記憶體資料處理引擎,具有優雅且富有表現力的開發 API,允許資料工作者有效地執行需要快速迭代訪問資料集的串流、機器學習或 SQL 工作負載。 作者指出大多數想應徵資料科學的人都具備 Python、R、SQL 的技能,如果你也擁有 Hadoop 和 Spark 的技能,將讓你比其他人更有競爭力。

Java 和 SAS 會在資料科學需要的技巧排這麼前面,出乎作者的意料之外,作者發現這兩者會排這麼前面主要是有大公司在支持。 另外值得你注意的是一個目前國際企業組織在資料分析最常用的平台和視覺化的工具 – Tableau。 Tableau 有資料公開的免費版本,也有保持私人資料隱私的免費版。

2018 與 2017 年的技術技能佔比的比較

Python、R、SQL 都一樣順序排前三名。 2017 年排名較前的 R、Hadoop、Java、SAS 和 Matlab 在 2018 年比較沒有像以前那麼熱門,而 Tableau 的需求有增加的趨勢。

本篇最後還有作者根據這個研究結果給予讀者一些建議,點入參考看看!

討論專區

相關線上課程

 歡迎使用 e-mail 訂閱 Soft & Share 

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: