Skip to content

Latest commit

 

History

History
71 lines (36 loc) · 8.23 KB

context-consistency-collaboration-essential-data-science-success.md

File metadata and controls

71 lines (36 loc) · 8.23 KB

背景、一致性和协作是数据科学成功的关键

原文:www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

背景、一致性和协作是数据科学成功的关键

图片来源:mohamed_hassan 在 Pixabay

到 2021 年底,人工智能(AI)和机器学习(ML)领域已不再是未来充满不确定性的初创领域。AI 和 ML 已成为对更广泛的数据科学领域产生巨大影响的领域,这一事实在今年更是显而易见。这点比以往任何时候都更真实。


我们的三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业轨道

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 部门


随着 AI、ML 以及数据科学的持续扩展,能够影响数据科学团队成功的参数也在不断增加。要从 AI 和 ML 领域获得重要而深刻的见解,需要的数据科学团队规模远超过仅由一位数据科学家和一台笔记本电脑组成的团队。获取、清洗和准备分析所需的大量数据——这一过程消耗了数据科学家平均工作日的很大一部分——是任何一个人单独无法完成的。

现代数据科学项目围绕着数据准备、先前的数据科学项目以及可能的前进方式展开,这些信息必须与多个数据科学团队共享。因此,研究数据科学团队为何需要背景、一致性和安全的协作,以确保数据科学的成功至关重要。让我们快速审视这些要求,以便更好地理解未来数据科学成功的样貌。

第一部分:背景

我们对未来数据科学成功的审视始于背景:没有经过迭代的模型构建依赖于尝试与失败的实验的过程无法长久存在,除非有已记录、储存并提供给数据科学家的机构知识。然而,仍然有大量机构知识因为缺乏适当的文档和存储而经常丢失。

设想一个常见场景:一位初级或公民数据科学家被拉入一个项目以提高其技能,但由于缺乏背景知识,很快就会在同步与异步协作中遇到困难。这些临时团队成员需要了解更多关于他们正在互动的数据、过去解决问题的人以及以前的工作如何影响当前项目环境的背景信息。

适当记录项目以及数据模型和其工作流的必要性很容易分散数据科学团队的注意力,更不用说单独操作的人员了。领导者可以考虑雇佣自由开发者来投入时间,以维护和传播机构知识,从而提高现代数据科学项目的标准审查和反馈环节。这些环节以及软件系统、工作台和最佳实践可以简化更有效地捕捉项目相关背景的过程,改善未来初级和公民数据科学家的数据发现能力。

数据科学的成功需要知识的精简管理及其周围背景。如果没有它,新手、初级和公民数据科学家可能会在入职和对项目的有意义贡献上遇到困难,这反过来又会导致团队重建项目,而不是贡献于之前的工作。

第二部分:一致性

机器学习(ML)和人工智能(AI)领域在金融服务、健康与生命科学以及制造业方面带来了基础性的变化;不过,这些行业受到严格的监管环境的约束。这意味着在受监管的环境中进行的 AI 项目必须具有可重复性,并且有明确的审计痕迹。换句话说,涉及数据科学项目的 IT 和业务领导者需要确保数据一致性。

IT 和商业领袖可以期待可靠的一致性水平,也可以在进行 AI 促进的战略调整时享有更多信心。数据科学项目涉及大量的投资,因此数据科学家理应拥有一个可以保证重现性的基础设施从开始到结束。这种完全重现性转化为高管在决定数据科学项目是否足够重要以及是否与业务目标一致时所需的数据一致性。

这些高级管理人员应当预期,随着他们的科学团队扩展,确保旧项目结果一致性的所需培训集和硬件要求也会增加。因此,帮助管理环境的过程和系统对数据科学团队的扩展至关重要。例如,如果一个数据科学家使用笔记本电脑,而一个数据工程师在云虚拟机上运行不同版本的库,那么数据科学家可能会发现他们的数据模型在不同机器上产生不同的结果。关键是:高管应确保他们的数据协作者有一种一致的方式来共享完全相同的软件环境。

第三部分:协作

最后,我们来谈谈安全协作的重要性。随着企业不断将运营模式转移到居家办公模式,组织们意识到数据科学协作比面对面协作要困难得多。虽然一些核心的数据科学任务(如数据准备、研究和数据模型迭代)可以通过一个数据科学家来管理,但大多数商业高管错误地忽视了协作,从而阻碍了远程生产力。

那么,如何促进项目参与者之间的有效远程协调以及项目数据的安全性呢?答案在于可共享的工作文件和与数据科学项目相关的数据,这些数据使得远程信息传播更具可行性。随着项目相关数据传播变得更简单,信息共享也变得更容易,从而促进了远程数据协作。数据科学项目的参与者可以利用基于云的工具来增强其研究的安全性,但太多领导者犯了未能鼓励协作的错误,从而降低了生产力。

结论

近年来,数据科学领域的巨大进展前所未有,确实令人惊叹。数据科学的发展使全球公司能够解决以前几乎没有现成答案的问题,这些创新得益于人工智能和机器学习的进步。

然而,随着数据科学领域的不断成熟和发展,是时候让顶级高管和他们所监督的数据科学团队摆脱更为临时和被动的工作方式了。数据科学家可以利用生成背景、一致性和更大协作的资源,如软件工作台,这些对于数据科学的成功可能至关重要。最终,项目将对数据科学家、工程师、分析师和研究人员的要求减少,他们将能更好地加速该领域的持续和惊人成功。

Nahla Davies 是一名软件开发人员和技术作家。在全职从事技术写作之前,她曾管理——除了其他有趣的事情外——担任了一家《Inc. 5,000》体验品牌机构的首席程序员,该机构的客户包括三星、时代华纳、Netflix 和索尼。

更多相关内容