原文:
www.kdnuggets.com/2022/03/people-management-ai-building-highvelocity-ai-teams.html
本文描述了如何将机器学习基础设施、人员和流程融合在一起,以实现适合您组织的 MLOps。它为希望建立高效能 AI 团队的经理和主管提供了实际的建议。
我们在这篇文章中分享的建议基于 Provectus AI 团队的经验,该团队与多个客户在不同阶段的 AI 旅程中合作。
仅仅几年前,大部分 AI/ML 项目由数据科学家负责。虽然一些团队依赖于更高级的角色和工具组合,但数据科学家在笔记本中处理模型仍然是行业常态。
如今,仅雇用一个数据科学家不足以快速、高效、大规模地将可行的 AI/ML 项目交付到生产中。它需要一个跨职能、高效能的团队,每个角色处理其自己的机器学习基础设施和 MLOps。
在现代团队中,数据科学家或公民数据科学家仍然是不可或缺的成员。数据科学家是理解数据以及业务的主题专家。他们在数据挖掘、数据建模和数据可视化方面亲自参与。他们还关注数据质量和数据偏见问题,分析实验和模型输出,验证假设,并为机器学习工程路线图做出贡献。
平衡的 AI 团队还应包括一个机器学习工程师,其技能与数据科学家不同。他们应该在特定的 AI 和 ML 应用程序和用例方面拥有深厚的专业知识。例如,如果您构建一个计算机视觉应用程序,机器学习工程师应该拥有有关计算机视觉的最先进深度学习模型的广泛知识。
注意: 每个机器学习工程师都应该具备 MLOps 专业知识,但 MLOps 基础设施本身,包括其工具和组件,应该由专门的 MLOps 专业人员负责。
项目经理也应接受培训以执行机器学习和 AI 项目。传统的 Scrum 或 Kanban 项目工作流程不适用于机器学习项目。例如,在 Provectus,我们有一种特定的方法来管理机器学习项目的范围和时间表,并设定其业务利益相关者的期望。
我们将更详细地探讨这些(和其他)角色,并解释它们如何映射到机器学习基础设施、MLOps 赋能过程和机器学习交付。这里的主要信息是,AI 团队需要平衡的组成,以实现 MLOps 并加速 AI 采用。
进一步阅读: Provectus 和 GoCheck Kids 如何构建用于改善视力筛查可用性的 ML 基础设施
除了实际的团队组成外,有效的管理对于使 AI 团队与 ML 基础设施和 MLOps 基础保持同步至关重要。
从管理的角度来看,典型的组织结构包括:
-
向工程副总裁报告的业务部门和传统软件工程师
-
向基础设施副总裁报告的 DevOps 专业人员和基础设施专家
-
数据科学家处理数据,并通常直接与业务利益相关者合作。
-
数据工程师负责构建系统,将原始数据转换为数据科学家和业务分析师可以使用的信息。
这种结构产生了大量的跨部门孤岛和其他挑战。
-
由于公司对 ML 工作流程和 AI 项目管理的理解有限,上述群体中的任何人都无法完全理解如何将业务目标转化为投入生产的 AI 产品。因此,项目的范围和 KPI 管理变得不可能,导致未能满足业务利益相关者的期望。
-
一些公司试图将 AI 项目委托给现有的数据科学团队,这些团队历史上在自己的孤岛中工作,并依赖于不适用于 AI/ML 项目的数据科学方法。结果,他们最终得到的是未完成的产品和无法投入生产的项目。
-
其他公司通常将 AI 项目分配给传统的 Java 和.NET 开发人员,或利用第三方 ML API。这种方法也往往失败,因为你仍然需要深入了解数据及其底层算法,才能有效地使用这些 API。结果,他们会面临不断增长的技术债务,即无法投入生产的数据科学代码。
解决这些挑战的办法在于找到人员与工具之间的正确平衡。在本文的背景下,这意味着一个平衡的 AI 团队利用端到端的 MLOps 基础设施来进行协作和迭代。
请记住,你不能仅仅通过聘请一个 MLOps 专家或购买一个 MLOps 平台来解决问题。你需要的是一个强大的基础设施和一个平衡的人工智能团队来启动你的 AI/ML 项目。
在平衡的人工智能团队和 MLOps 基础设施中,特定角色的协同效应可以被形象化为一个三级生态系统:
-
第一层是MLOps 的基础设施骨干,由云与安全专业人员和 DevOps 支持。此层托管基础设施组件,如访问、网络、安全和 CI/CD 管道。
-
第二层是MLOps 的共享和重用资产。此层由 ML 工程师和 MLOps 专业人员管理,包括带有各种图像、内核和模板的笔记本;包含组件和库的管道被视为共享资产;实验;数据集和特征;以及模型。此层的每个资产可以被不同团队使用和重用,加速 AI 开发和采用。
-
第三层是AI 项目,由数据科学家、全栈软件开发人员和项目经理负责。此层独立于其他两层,但受到它们的支持。
请注意,云与安全、DevOps、ML 工程师和 MLOps 角色被置于层级之间,并对每个层级做出贡献。例如:
-
云与安全拥有基础设施骨干,同时也负责重用资产层,确保所有组件和检查到位。
-
DevOps 专业人员处理底层两个层级的自动化部分,从自动构建到环境管理。
-
ML 工程师具备 MLOps 基础设施和项目专业知识。他们负责重用资产层的各个组件。
-
MLOps 专家与 ML 工程师紧密合作,但他们负责整个基础设施(例如 Amazon SageMaker,Kubeflow)。他们的终极目标是将一切整合在一起。
与此同时,公民数据科学家可以优先实现特定的 AI/ML 项目,主要在笔记本中工作。他们可以负责 ML 管道的某个部分,但不需要深入 MLOps 的细节。全栈工程师可以处理 AI 产品的常规软件部分,从 UI 到 API。接受 ML 训练的项目经理负责产品的实施。
当然,这只是一个抽象的表示。下面是展示基础设施骨干的参考基础设施。
在这里,我们可以看到数据科学家拥有处理原始数据、在笔记本中进行数据分析和验证假设的工具。他们可以在ML 工程师管理的实验环境中轻松运行实验。实验环境由共享和重用的组件组成,如特征存储、数据集生成、模型训练、模型评估和预配置的数据访问模式。这使得繁琐、易出错的任务自动化,同时不会让数据科学家脱离舒适区。
ML 工程师 负责将 ML 模型投入生产,这意味着他们准备算法代码和数据预处理代码,以在生产环境中使用。他们还建立和运营各种实验环境中的管道。
DevOps 专业人员 帮助高效管理所有基础设施组件。例如,在我们的参考架构中,从一到四的数字演示了由 DevOps 处理的 CI 工作流。
MLOps 的实现需要时间和资源。最重要的是,它需要理解 MLOps 既涉及人和流程,也涉及实际的技术。如果您能组织具体的角色和职能,将它们匹配到机器学习基础设施的相应组件上,就不会过于复杂。记住:人 + 基础设施 = MLOps。
在 Provectus,我们帮助企业构建最先进的 AI/ML 解决方案,同时培养高效的 AI 团队,支持 强大的 MLOps 基础设施。请与我们联系,开始评估您组织的选项!
如果您对构建高效的 AI 团队和 MLOps 感兴趣,我们建议您还可以申请 这个按需网络研讨会。它是免费的!
Stepan Pushkarev 是 Provectus 的 CEO、CTO 和联合创始人,Provectus 是一家 AI 顾问和解决方案提供商,帮助企业加速 AI 采用并推动增长。在 Provectus,Pushkarev 领导行业特定 AI 解决方案的愿景,重新构想企业的运营、竞争和客户价值交付方式。Pushkarev 是一位在机器学习、云计算和分布式数据处理系统方面具有深厚专业知识的思想领袖,拥有成功建立专业服务业务和创办 SaaS 初创公司的记录。
-
-