Skip to content

Latest commit

 

History

History
164 lines (100 loc) · 7.27 KB

core-hot-data-science-skills.md

File metadata and controls

164 lines (100 loc) · 7.27 KB

哪些数据科学技能是核心的,哪些是热点/新兴的?

原文:www.kdnuggets.com/2019/09/core-hot-data-science-skills.html

评论最新的 KDnuggets 调查问卷

1. 你目前拥有哪些技能/知识领域(达到可以在工作或研究中使用的水平)?

2. 你想增加或改善哪些技能?

我们基于之前的 KDnuggets 文章和调查挑选了 30 项技能 - 见本文末尾的有用链接,以及外部来源。

总体而言(*),本次调查共收到超过 1,500 票 - 样本足够大,可以得出有意义的结论。平均每位受访者报告拥有 10 项技能,并希望增加或改善 6.5 项技能。

下图 1 显示了主要发现,X 轴显示拥有技能的百分比 - 对第一个调查问题的回答,Y 轴显示希望拥有技能的百分比 - 对第二个调查问题的回答。每个圆圈的大小与拥有该技能的受访者百分比成正比,而颜色则取决于 Want/Have 比例(红色为高 - 超过 1,蓝色为低 - 少于 1)。

注意:其他大数据工具 条目指的是除 Hadoop 或 Spark 外的大数据工具

技能需求散点图

图 1:数据科学相关技能,拥有技能与希望增加或改善的技能

我们在此图表中注意到两个主要的集群。

集群 1,在图表右侧的蓝色虚线矩形中,包括超过 40% 受访者拥有的技能,且 Want/Have 比例小于 1。我们称之为核心数据科学技能。它们列在表 1 中。

表 1:核心数据科学技能,按 %Have 递减排序

技能 %Have %Want %Want/ %Have
Python 71.2% 37.1% 0.52
数据可视化 69.0% 25.3% 0.37
批判性思维 66.7% 15.5% 0.23
Excel 66.5% 4.6% 0.07
沟通技能 65.9% 16.5% 0.25
机器学习 64.3% 41.0% 0.64
统计学 63.8% 27.8% 0.44
SQL/数据库编码 57.3% 16.0% 0.28
商业理解 57.0% 22.2% 0.39
数学 52.6% 17.5% 0.33
ETL - 数据准备 48.3% 14.1% 0.29
R 45.1% 19.8% 0.44
Scikit-learn 44.1% 24.0% 0.54

其中,添加或改善欲望最强的技能是机器学习(41%)和 Python(37%)。增长最少的技能是 Excel - 只有 7% 的人希望增加或改善他们的 Excel 技能。

第二类(见图 1 左侧,并用红色边框标记)包括当前较不流行的技能(%Have< 30%),但正在增长,%Want/%Have 比例超过 1 - 见表 2。我们称之为热点/新兴数据科学技能。

表 2:热点/新兴数据科学技能,按 %Want/%Have 递减排序

技能 %Have %Want %Want/ %Have
Pytorch 7.0% 29.6% 4.26
Scala 4.2% 13.3% 3.14
其他大数据工具 8.9% 27.4% 3.08
TensorFlow 19.1% 46.4% 2.44
Apache Spark 16.0% 34.6% 2.16
Hadoop 10.9% 22.7% 2.08
深度学习 25.9% 49.6% 1.92
No-SQL 数据库 14.0% 23.2% 1.65
NLP - 文本处理 25.0% 33.8% 1.35
Kaggle 14.5% 18.4% 1.27
非结构化数据 22.3% 27.7% 1.24

有趣的是,尽管有观点认为 Hadoop 在下降,但在这次调查中,更多人想学习 Hadoop 而不是已经了解它,因此它可能仍会增长。

尽管 Julia 的需求/拥有比例为3.4,我们仍未将其列为热门/新兴技能,因为只有 2%的投票者选择了它,它目前还没有足够的支持。

剩余技能 - XGBoost、软件工程、Java、MATLAB、SAS 的拥有比例在 10%到 30%之间,但没有增长 - 需求/拥有比例 < 1。

表 3:其他数据科学技能,按拥有比例的降序排列

技能 %拥有 %需求 %需求/ %拥有
软件工程 25.7% 15.2% 0.59
XGBoost 22.3% 19.0% 0.85
Java 15.1% 7.7% 0.51
SAS 12.7% 7.2% 0.57
MATLAB 10.9% 7.9% 0.73
Julia 2.0% 6.9% 3.44

这里是关于调查的更多细节。图 2 按拥有比例的降序排列了所有技能。

技能拥有全部

图 2:数据科学技能 KDnuggets 读者拥有的

图 3 显示了读者想要增加或改善的技能,以及他们拥有的技能的叠加。

技能需求拥有全部

图 3:数据科学技能 KDnuggets 读者想要增加或改善(红色)和拥有(蓝色)

我们看到当前和有志成为数据科学家的顶级技能包括深度学习、Tensorflow、机器学习和 Python。

调查还询问了就业类型:

  • 行业/自雇,64.4%

  • 政府/非营利,7.2%

  • 学术/大学,7.0%

  • 学生,14.3%

  • 其他/北美,7.1%

区域分布如下:

  • 美国/加拿大,37.9%

  • 欧洲,28.3%

  • 亚洲,19.3%

  • 拉丁美洲,6.1%

  • 非洲/中东,4.8%

  • 其他,3.5%

本次调查提供了初步分析,根据本帖的受欢迎程度,我们将进一步深入研究技能、就业类型和地区之间的关联。

注意:我们最初使用 Google 表单进行这项调查,但遭到机器人攻击,每个 Julia 和 MATLAB 的投票均超过 50,000 票。我们删除了机器人投票,同时保留了其他投票,并使用另一个平台重新启动调查,但不包括 Julia 和 MATLAB - 以避免再次攻击。最终 Julia 和 MATLAB 的结果是基于第一次调查版本中的有效投票估算的。

相关:

  • Python 引领数据科学和机器学习的 11 大平台:趋势与分析

  • Python 蚕食 R:2018 年分析、数据科学、机器学习的顶级软件:趋势与分析

  • 成为摇滚明星数据科学家的 13 项顶级技能

  • 数据科学家最需要的技能

  • 我没有被聘为数据科学家。因此我寻找了谁在被雇佣的数据。

如何提升作为数据科学家的市场竞争力


我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业的快车道。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织的 IT 需求


更多相关主题