原文:
www.kdnuggets.com/2021/11/why-machine-learning-engineers-are-replacing-data-scientists.html
评论
由Arthur Mello,AVISIA 的数据科学顾问。
1. Google 网络安全证书 - 快速通道进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你组织的 IT 工作
ML 工程和数据科学并不是同样的东西,原因如下:你知道人们常说数据科学是商业知识、统计学和计算机科学的结合吗?实际上,ML 工程更多地涉及计算机科学,较少涉及统计学和商业知识。
实际上,这意味着数据科学家更擅长创建新的模型、分析和解读数据,并理解这些模型的数学基础。他或她通常来自统计学背景,有些可能拥有博士学位,并且非常擅长数学,而编程则是为了用计算机进行数学运算而学习的技能。
另一方面,ML 工程师擅长于构建和优化数据流、实施模型以及将其投入生产。他或她通常来自计算机科学背景,可能接受的正式教育少于数据科学家,并且在编程和理解云基础设施方面表现出色。然而,ML 工程师与数据工程师不同,因为他们还需要非常擅长调整模型(尤其是神经网络)、理解交叉验证和特征工程等。总体而言,他们在数据基础设施方面应该比数据科学家更优秀,在机器学习方面比数据工程师更出色。
如果你仍然不相信机器学习工程是真实存在的,可以查看 Google Cloud Platform 的专业机器学习工程师认证课程。它与传统的数据科学课程没有太大关系,仅涉及一些基本的统计知识,但也没有深入探讨选择数据库的规则等。
好的,那为什么选择其中一个而不是另一个呢?实际上,并不是一个优于另一个。它们在数据生态系统中都有其作用。但一个已经开始趋于饱和,而另一个则尚未被广泛知晓。实际上,谈论机器学习工程的人员并不多——至少与谈论数据科学的人相比——然而,我相信机器学习工程师的需求可能会超过数据科学家的需求。
我们可以看到世界各地的数据科学家数量激增,涵盖了各种规模的公司,而这些人中的大多数实际上并没有真正进行数据科学工作,只是在做分析。许多真正进行数据科学工作的人可能也不一定需要这么做。
这意味着许多组织正在雇佣人员重复解决基本相同类型的问题。存在大量冗余,而且做这项工作的人的质量差异很大。
与此同时,我们看到像谷歌和亚马逊这样的公司拥有一些世界上最顶尖的数据科学家,他们正在其云平台(分别是 GCP 和 AWS)上开发“即用型”机器学习系统。这意味着你可以将你的数据接入他们的系统,从中受益于所有这些知识,你需要的只是一个懂得如何建立连接和进行必要调优的人——像一位机器学习工程师。
换句话说,如果数据科学不是业务的核心,那么你的数据问题极不可能是全新的,因此更高效的是利用你可以从这些云提供商那里获得的积累知识。往往,企业都在解决类似的问题:销售预测、客户细分、评分、推荐等。这些问题早已被这些科技巨头解决,你应该从迁移学习中受益,而不是从头开始解决它们。
这正是机器学习工程的作用所在:你无需拥有统计学或数学的博士学位,就可以从这些平台中受益并将其适应于你的需求。对算法如何工作、超参数如何影响它们以及数据如何处理有一个非常基础的理解就足够了。然而,你确实需要能够选择哪些工具适合你的问题,以及在时间和金钱方面最有效的设置是什么。
当然不是。许多公司仍然需要数据科学家来解决新的或更复杂的问题。但一旦炒作过后,将会有更少的“数据科学家”在做数据分析师的工作或为那些可以用现成解决方案解决的问题重新发明轮子。
照片由Kameron Kincade提供,来源于Unsplash。
如果你已经到达这一点并且相信机器学习工程技能在未来几年将至关重要,你可能在想如何学习这些技能。
我将在这里列出一组技能,帮助你快速适应这一新现实。
命令行
你可能已经使用过命令行来做一些简单的事情,例如下载 Python 包,但你应该在这方面有所提高。为了使用像 GCP 和 AWS 这样的平台,这将会很有帮助。Codeacademy提供了一些不错的课程。
Spark
尽管我们倾向于使用 Pandas 来学习数据科学,但当你有太多数据并需要并行运行算法时,Spark 将会很有帮助。我认为 Spark 的最常用版本是 Scala,但如果你更熟悉 Python,可以学习 PySpark。
云服务提供商
主要的三大云服务提供商是 AWS、GCP 和 Azure,但我建议你选择一个并坚持使用。我不能说哪个更好,虽然我个人选择的是 GCP。在选择之前,尝试在线查找它们的比较——有很多比较资料。你也可以查看你所在国家最常用的或你公司使用的那个。现在,无论你选择哪个,你都能找到使用它的公司,并且这些公司在寻找具有这些特定技能的人。
不管怎样,一旦选择了你的平台,就要真正掌握它。我是说,真正掌握。有很多你可以用这些平台做的事情,所以要专注于你在机器学习方面的需求。查看它们的机器学习认证大纲会给你一个很好的学习概述。你可以在这里访问这些资源:GCP、AWS、Azure (DS 或 AI)。如果你想要一个 GCP 学习指南,我 写过一个。
如果你已经在一家定期使用这些工具的公司工作,尝试获得相关认证,然后参与涉及这些工具的项目,这样你可以进行实践。如果你的公司不使用这些工具,认证可能会帮助你获得其他公司中的相关职位。不管怎样:学习、获取证书、实践。我无法过于强调掌握这些工具的重要性。
特征工程
特征工程在 ML 中的重要性至少与在数据科学中的重要性一样。我写了一篇文章讲解了一些你可以使用的技术,确保阅读后尝试在工作中实现其中的一些。想更深入了解,可以参考这本好书,我强烈推荐。
ML 工程涉及到准备数据、检测模型漂移、使数据管道顺畅高效运行等。为了整合我们在这篇文章中看到的其他内容,你必须学习 ML 工程本身。Coursera 上有一门相关课程。虽然我还没有上过,但它是由 Andrew Ng 创作的,考虑到他的成就,如果这门课程不好我会感到惊讶。
原文. 经许可转载。
相关: