Skip to content

Latest commit

 

History

History
73 lines (37 loc) · 4.42 KB

gigantum-containers-will-rule-data-science.md

File metadata and controls

73 lines (37 loc) · 4.42 KB

容器将统治数据科学的 5 个理由

原文:www.kdnuggets.com/2020/11/gigantum-containers-will-rule-data-science.html

赞助文章。

(摘自 这篇文章 关于 Gigantum)

数据科学家的工作不可避免地与数据相关,他们的分析与编码环境紧密相关。我们仍然对谁可以称自己为数据科学家存在分歧,但有一点确实区分数据科学家和计算机科学家,那就是需要将数据紧密结合到项目中,以便进行数据操作和建模。


我们的前 3 个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全领域。

2. 谷歌数据分析专业证书 - 提升你的数据分析水平

3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 部门


进入容器。历史上,容器是将软件堆栈从操作系统中抽象出来的一种方式。对于数据科学家而言,容器历史上提供的好处不多。

图片

快进到 2020 年,现在学术界和工业界的最佳数据科学家正在转向容器,以解决数据科学社区特有的新问题。我相信容器很快将统治所有数据科学工作。

原因如下:

1. 为整个团队提供一致的环境和编码接口

想象一下能够轻松将类似“亚马逊机器映像”的环境分发到所有数据科学团队的机器上。这意味着不再存在版本不一致、pip 安装、网络防火墙问题。容器使这一切成为可能。

2. 提升和转移数据科学工作的能力:共享和协作

容器保存环境信息和数据引用。这意味着整个项目,包括可运行的 Jupyter 笔记本,可以传递给数据科学团队中的任何人,并从一台机器转移到另一台机器。

图片

3. 容器使数据科学项目与硬件和 GPU 无关

几乎所有公司都会向其数据科学团队提供虚拟机,以完成沙箱或生产数据科学任务。随着时间的推移,组织中的机器数量激增,项目需要迁移。如果没有迁移项目的策略,数据科学任务可能会中断,或虚拟机数量激增而几乎没有价值。

而 GPU 可以前所未有地共享。

4. Kubernetes 需要容器化应用程序

Kubernetes 正在风靡一时。这个编排系统的核心是容器化应用程序。Kubernetes 部署和管理基础容器,但项目必须首先容器化。

(我在业界的联系人已经告诉我,IT 部门开始要求使用容器化应用程序。)

5. 与云无关及零云锁

GCP 的 DataProc、AWS 的 Sagemaker 或 Azure Machine Learning 都附带云锁(并可能有巨大的价格标签)。当你使用云服务进行开发时,你将被限制在那个云提供商的项目中,直到你退役项目或故意迁移出去。

正确使用容器可以使数据科学项目免受云锁风险。

想了解更多关于容器如何改变数据科学的信息吗?阅读有关 Gigantum 如何处理容器化数据科学的内容(这里),或下载 MIT 许可的客户端,用于在 R 和 Python 中编写数据科学项目,今天就开始使用容器(这里)。

更多相关内容