原文:
www.kdnuggets.com/2017/02/5-career-paths-data-science-big-data-explained.html
最近,我在 LinkedIn 上接到了很多寻求“数据科学”和/或“大数据”入门建议的人。这些人通常对进入“这个领域”感兴趣,并需要一些关于如何进行的方向。
然而,这些请求中的一个共同主题(我说这话时怀着极大的尊重)是对他们实际在问什么的一般性缺乏理解。这是可以理解的;无论学习什么,每个人都需要从某个地方开始。与其一个一个回答这些类似的请求,不如在这篇文章中阐述一些与“数据科学”和/或“大数据”职业路径相关的非常基础的概念,并希望提供一些关于如何在这个复杂领域中入门的建议。
1. 谷歌网络安全证书 - 快速入门网络安全职业。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 需求
在进一步阅读之前,请阅读以下文章。我是认真的。阅读。那些。文章。
-
数据科学难题解析
-
数据科学难题再探
-
数据科学与大数据解释
-
预测科学与数据科学
第一篇文章概述了数据科学中的一些主导概念,第二篇是对这些概念的更新,第三篇则深入探讨了数据科学和大数据的概念。第四篇也是最后一篇,简要讨论了“数据科学”这个术语与其他术语使用之间的一些复杂性和细微差别。
我已经将各种职业可能性分解为一个易于管理的 5 条职业路径。尽管对于这种角色划分可能会有广泛的抗议和恐慌,但它们实际上有助于从高层次上分类技能和职业责任,因此我相信以下内容对帮助新人了解这个职业领域中存在的各种机会是非常有用的,这些机会往往容易被混淆。
分析职业的粗略估算(点击放大)。
这基本上是一个 IT 职位,类似于数据库管理员。数据管理专业人员负责管理数据及其支持的基础设施。这个角色几乎不涉及数据分析,使用 Python 和 R 等语言可能不必要。SQL 可能会有用,还有 Hadoop 相关的查询语言,如 Hive 或 Pig。
关键技术和技能关注点:
-
Apache Hadoop 及其生态系统
-
Apache Spark 及其生态系统
-
SQL 与关系型数据库
-
NoSQL 数据库
进一步阅读:
-
大数据关键术语解析
-
数据库关键术语解析
-
Hadoop 关键术语解析
-
Apache Spark 关键术语解析
-
云计算关键术语解析
-
理解 NoSQL 数据库的 7 个步骤
-
掌握数据科学 SQL 的 7 个步骤
这是大数据非分析的职业路径。前面职业路径提到的数据基础设施?嗯,它需要被设计和实施,而数据工程师就是这样做的。如果数据管理专业人员是汽车维修工,数据工程就是汽车工程师。但不要搞错了;这两个角色对你汽车的交付和持续运行都是至关重要的,当你从点 A 驾驶到点 B 时,它们同样重要。
说实话,数据工程和数据管理所需的技术和技能是相似的;然而,它们在不同层次上使用和理解这些概念。我不会重复上面角色中分享的信息(这些信息对数据工程师很重要),而是会添加一些关于数据工程师的进一步阅读。
进一步阅读:
-
顶尖 NoSQL 数据库引擎
-
顶尖大数据处理框架
-
顶尖 Spark 生态系统项目
-
Hadoop 和大数据:解答的六大问题
-
为什么数据科学家和数据工程师需要理解云中的虚拟化
在此背景下,我使用“业务分析师”来指代严格与数据分析和展示相关的角色。这包括报告、仪表板以及任何被称为“商业智能”的内容。这个角色通常需要与(或查询)数据库进行交互,包括关系数据库和非关系数据库,以及大数据框架。
虽然之前的角色涉及设计基础设施来管理数据以及实际管理数据,但业务分析师主要关注从数据中提取信息,就像它当前的状态一样。这与接下来的两个角色(机器学习研究员/从业者和数据导向的专业人员)形成对比,这两个角色都专注于从数据中挖掘超越其表面信息的洞察力。因此,业务分析师在这些角色中需要一套独特的技能。
关键技术和技能关注点:
-
SQL 和关系数据库
-
NoSQL 数据库
-
通常需要商业报告和仪表板软件的专业知识
-
报告往往是临时性的,而掌握快速适应工具的能力是关键
-
数据仓库
进一步阅读:
-
2016 年的 10 大商业智能趋势
-
嵌入式分析:商业智能的未来
-
自建与购买 – 分析仪表板
机器学习研究员和从业者是那些设计和使用用于利用数据的预测和相关工具的人。机器学习算法允许以高速应用统计分析,而使用这些算法的人不会满足于让数据以当前形式自行表达。数据的操作方式是机器学习爱好者的工作方法,但需要足够的统计学理解,知道何时推动得足够远,以及何时提供的答案不可信。
统计学和编程是机器学习研究员和从业者最重要的资产。
关键技术和技能关注点:
-
统计学!
-
代数与微积分(从业者中级,研究员高级)
-
编程技能:Python、C++ 或其他通用语言
-
学习理论(从业者中级,研究员高级)
-
对一系列机器学习算法的内部工作原理的理解(算法越多越好,对其理解越深入越好!)
进一步阅读:
-
机器学习与统计学
-
机器学习关键术语解释
-
掌握 Python 机器学习的 7 个步骤
-
进入机器学习职业前需要阅读的 5 本电子书
-
机器学习工程师需要了解的 10 个算法
-
伟大的算法教程汇总
-
十大数据挖掘算法解释
-
15 个数学 MOOC 用于数据科学
深度学习? 虽然它是一种机器学习形式,但为了明确起见,我列出了一个单独的推荐阅读列表:
-
深度学习关键术语解释
-
理解深度学习的 7 个步骤
-
人工智能、深度学习和神经网络解析
-
9 篇关键深度学习论文解析
这是我能想到的对所谓“真正”数据科学家的最佳描述。你知道,独角兽。除了,确实没有独角兽,任何说不同话的人都是在撒谎。
数据管理专业人士和数据工程师关注的是存储数据的基础设施。商业分析专业人士关注的是从现有数据中提取事实。机器学习研究人员和从业者关注的是推进和使用现有工具,以利用数据进行预测和相关分析,这两个角色都是基于算法的(要么开发,要么使用,或两者兼而有之)。数据导向的专业人士主要关注数据以及数据所讲述的故事,无论实现这一任务需要什么技术或工具。
数据导向的专业人士可能会根据他们的具体角色使用上述任何一种技术。这也是“数据科学”相关的最大问题之一;这个术语没有特定的含义,而是总的而言。这一角色是数据领域的全才,可能知道如何启动和运行一个 Hadoop 生态系统;如何对存储的数据执行查询;如何提取数据并存放在非关系型数据库中;如何将非关系型数据提取到平面文件中;如何在 R 或 Python 中处理这些数据;如何在初步探索性描述分析后进行特征工程;如何选择合适的机器学习算法对数据进行预测分析;如何统计分析预测任务的结果;如何将结果可视化以便非技术人员容易理解;以及如何向高管讲述数据处理管道的最终结果。
这只是数据科学家可能拥有的技能之一。然而,无论如何,这个角色的重点在于数据,以及从中获取的信息。领域知识通常也是这种角色的一个重要组成部分,这显然不是在这里可以教授的内容。
重点关注的技术和技能:
-
统计学!
-
编程语言:Python, R, SQL
-
数据可视化
-
沟通技能
进一步阅读:
-
R 学习路径:从初学者到专家的 7 个步骤
-
数据科学统计学 101
-
数据科学中需要哪些统计学主题以出色表现?
-
数据科学家使用的顶级算法和方法
作为一篇介绍性文章,我有意省略了物联网(IoT)的任何提及。这有两个原因:首先,我不想给试图吸收这些新材料的任何人增加额外的困惑;其次,IoT 只是数据的一个特殊情况,每个角色可以将这些角色应用于 IoT 数据,但可能需要一些修改。但核心真理依然不变。
我希望这个概述对那些希望开始“数据科学”或“大数据”职业路径但不确定从哪里或如何开始的人有所帮助。请记住,这绝不是承担这里提到的任何角色的详尽课程。然而,对于对数据职业了解较少的个人来说,这是一个很好的起点。
如果你对这个话题有不同的见解,可以阅读扎卡里·利普顿的真正的数据科学家请站出来。
相关:
-
21 个必知的数据科学面试问题及答案