Skip to content

Latest commit

 

History

History
95 lines (48 loc) · 8.03 KB

power-mlops-dataops-data-science.md

File metadata and controls

95 lines (48 loc) · 8.03 KB

释放 MLOps 和 DataOps 在数据科学中的力量

原文:www.kdnuggets.com/2021/06/power-mlops-dataops-data-science.html

评论

Yash Mehta 发表,他是 Intellectus 的创始人兼首席执行官


我们的前三个课程推荐

1. Google 网络安全证书 - 快速开启网络安全职业生涯。

2. Google 数据分析专业证书 - 提升您的数据分析技能

3. Google IT 支持专业证书 - 支持您的组织 IT


数据量巨大,挖掘、分析和实时传递数据的科学也是如此。无论数据对业务有多么重要,它仍然面临着将数百万用户的隐私置于难以想象的风险之中的问题。这正是为什么突然倾向于更多自动化过程的原因。

在过去的一年中,坚持传统分析的企业意识到没有改革就无法生存。例如,企业正在尝试微型数据库,每个数据库仅存储一个特定业务实体的主数据。同时,自助服务实践在发现、清理和准备数据方面的采用也有所增加。他们已经理解了接受 ‘XOps’ 思维模式的重要性,并将更重要的角色委派给 MLOps 和 DataOps 实践。

MLOps 的需求

现在,MLOps 变得重要,因为将 ML 模型投入实际运行比训练它们或将其作为 API 部署要困难得多。缺乏治理工具会进一步加剧这种复杂性。最终,由于动态数据的涌入,ML 模型无法适应变化,导致最终输出不达标。

简单来说, MLOps 是 ML 模型与其在实际生产中执行之间的一切。这个过程需要数据科学家与如 ML/DL 工程师等操作专业人员的全面协作。作为一个团队,他们会对不同的特性如参数和超参数进行实验。其目标是加快模型的开发与部署、监控和机器学习模型的批准。

85% 的 AI 项目容易出错

根据 Gartner 的说法,这在很大程度上是由于生产路线图的低效和与 DevOps 团队的沟通差距。通过自动化模型部署,MLOps 精细地解决了这些问题。由于数据科学本质上是动态的,MLOps 创建了适应性强的传输管道,从而容纳各种类型的模型。此外,

  • 它通过自动化消除了耗时的数据科学算法,使科学家能够更高效地预见结果。

  • 它提供了数据科学家、DevOps 资源和开发人员之间的全面协作,从而简化了模型优化。

  • 它确保了模型从数据科学到 DevOps 团队的无缝过渡,与持续集成保持一致。

在此过程中,Neptune.ai 是一个值得提及的案例研究。MLOps 平台提供了一个用于记录所有元数据集的“存储”。元数据存储提供了一个用户友好的平台,以完善 MLOps 模型管理。在这里,数据科学家可以创建日志、存储和组织数据集,并查询在 MLOps 模型生命周期内生成的所有元数据。此外,仪表板提供 ML 实验跟踪、模型注册和对元数据数据库的即时访问。

还有其他公司,例如 Neal Analytics,提供端到端生命周期的处理 MLOps。凭借跨多个领域的经验,ML 服务提供了路线图规划、成熟度评估以及模型管理和执行。

DataOps 是一套最佳实践,指导自动化和过程导向的路线图,以提高质量并减少分析的周期时间。

因此,它推动了敏捷性,并确保数据一致地交付给业务。像 MLOps 一样,DataOps 也推动了可重用性和灵活性,以适应新的用例。此外,通过设计来治理数据可以创建工作流,自动在新的管道中实施政策。

在这里,数据的使用既简单又安全,防止组织面临不可预见的问题。目标是流式传输干净的数据,以实现可信赖的可操作预测分析。不可忽视的是,定义数据角色、制定数据政策和设计数据管道都包含在这一实践中。

有趣的是,定制化方案因其适应不断发展的企业面貌而获得了广泛的赞誉。考虑 K2View,它提供了一种独特的方法来收集、清理、分析和流式传输数据。他们的数据织物技术从多个来源捕获数据,并将其对齐到统一模板中,从而简化了编排、元数据管理和数据治理。

在追求更快数据交付的过程中,他们的技术遵循数据科学中的连续性原则:

  • 持续数据集成

    实现按需数据集成和跨域管理主数据集。这有助于实时访问在 Fabric 数据模型中反映的新来源。此模型是访问数据的中央数据仓库。

  • 持续数据交付

    处理对织物模型的所有修改。它们几乎不依赖于停机时间,并在运行时进行操作而不干扰交付。

  • 持续数据部署 随需数据访问到任何请求应用程序,通过 ETL、虚拟化、流式传输、网络服务或消息传递等交付模型。

Gartner 建议,仅通过使用织物技术,企业可以节省 30%的集成时间、30%的部署时间以及 70%的维护资源。因此,各种行业的企业已经采纳了织物模型,以强化他们的 DataOps 和 MLOps 计划。

转发

对于那些努力超越大量数据的企业来说,拥抱混合思维模式是至关重要的。因此,支持 DataOps 和 MLOps 的数据交付模型为长远发展提供了更强的基础。在企业规模上实施数据管理是实现业务敏捷性的唯一公式。因此,优先考虑能够在动态使用案例和混合环境中产生业务价值的数据。

简介: Yash Mehta 是一位物联网和大数据爱好者,他在 IDG、IEEE、Entrepreneur 等出版物上贡献了许多文章。他共同开发了像Getlua这样的平台,允许用户轻松地合并多个文件。他还创立了一个研究平台,从专家那里生成可操作的见解。

相关:

更多相关内容