原文:
www.kdnuggets.com/2021/01/data-scientist-dont-start-machine-learning.html
评论
照片由Will Porada拍摄,来自Unsplash。
1. 谷歌网络安全证书 - 快速进入网络安全职业的快车道。
2. 谷歌数据分析专业证书 - 提升你的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT
大多数人听到“数据科学”这个词时首先想到的通常是“机器学习”。
这对我来说就是这样。我对数据科学的兴趣是因为我第一次接触了“机器学习”这一概念,它听起来真的很酷。所以当我在寻找学习数据科学的起点时,你可以猜到我从哪里开始了(提示:它和豆子搅拌押韵)。
这是我最大的错误,这也引出了我的主要观点:
如果你想成为数据科学家,不要从机器学习开始。
请耐心听我讲完。 显然,要成为一名“完整”的数据科学家,你最终需要学习机器学习的概念。但你会惊讶于在没有它的情况下你能走多远。
1. 机器学习只是数据科学家工作的一部分(而且这一部分非常小)。
图片由作者创建。
数据科学和机器学习就像是正方形和矩形。机器学习是(数据科学的一部分),但数据科学不一定是机器学习,就像正方形是矩形,但矩形不一定是正方形。
实际上,我认为机器学习建模仅占数据科学家工作的大约 5-10%,大部分时间是在其他方面度过的,这一点我会在后面详细说明。
TLDR: 如果你首先专注于机器学习,你将投入大量时间和精力,却收获甚微。
2. 完全理解机器学习需要先掌握其他几个相关学科的初步知识。
从根本上说,机器学习是建立在统计学、数学和概率论之上的。就像你首先学习英语语法、修辞语言等来写好一篇文章一样,你必须先掌握这些基础模块,然后才能学习机器学习。
举几个例子:
-
线性回归是大多数训练营首先教授的第一个“机器学习算法”,实际上它更像是一个统计学
-
主成分分析仅在矩阵和特征值(线性代数)的概念下才能实现。
-
朴素贝叶斯是一种完全基于贝叶斯定理的机器学习模型(概率)。
因此,我将总结两点。第一,学习基础知识将使学习更高级的主题变得更容易。第二,通过学习基础知识,你将已经掌握了几个机器学习的概念。
3. 机器学习不是每个数据科学家问题的答案。
许多数据科学家,包括我自己,都在这方面挣扎。和我最初的观点类似,大多数数据科学家认为“数据科学”和“机器学习”是密不可分的。因此,当面对问题时,他们考虑的第一个解决方案就是机器学习模型。
但并非每个“数据科学”问题都需要一个机器学习模型。
在某些情况下,使用 Excel 或 Pandas 进行简单分析就足以解决当前问题。
在其他情况下,问题可能与机器学习完全无关。你可能需要使用脚本清理和处理数据,构建数据管道,或创建互动仪表板,这些都不需要机器学习。
如果你读过我的文章“如果我要重新开始数据科学,我会怎么学”,你可能会注意到我建议学习数学、统计学和编程基础。我仍然坚持这一点。
正如我之前所说,学习基础知识将使学习更高级的主题变得更容易,通过学习基础知识,你将已经掌握了几个机器学习的概念。
我知道如果你在学习统计学、数学或编程基础时,可能会觉得自己在成为“数据科学家”的道路上没有进展,但学习这些基础知识只会加速你未来的学习。
你必须先学会走路,才能跑步。
如果你想要一些实际的下一步行动,这里有几个建议:
-
从统计学开始。在这三个基础模块中,我认为统计学是最重要的。如果你对统计学感到畏惧,数据科学可能不适合你。我建议查看乔治亚理工学院的课程统计方法或可汗学院的视频系列。
-
学习 Python 和 SQL。如果你更喜欢 R,那也可以。我个人从未使用过 R,所以没有意见。你对 Python 和 SQL 的掌握越好,数据收集、处理和实施将会越轻松。我也建议你熟悉 Python 库,如 Pandas、NumPy 和 Scikit-learn。我还推荐你学习二叉树,因为它是许多高级机器学习算法(如 XGBoost)的基础。
-
学习线性代数基础。 当你处理任何与矩阵相关的工作时,线性代数变得非常重要。这在推荐系统和深度学习应用中很常见。如果这些内容是你未来想学习的内容,不要跳过这一步。
-
学习数据处理。 这占数据科学家工作的一半以上。更具体地说,了解更多关于特征工程、探索性数据分析和数据准备的知识。
这是一篇带有主观看法的文章,所以你可以根据自己的需求选择阅读。我总体的建议是,机器学习不应成为你学习的重点,因为这不是一个很好的时间利用方式,并且对你在职场上成为成功的数据科学家帮助不大。
话虽如此,祝你在未来的努力中好运!
原文。经允许转载。
相关内容: