Skip to content

Latest commit

 

History

History
107 lines (54 loc) · 7.55 KB

applied-data-science-solving-predictive-maintenance-business-problem.md

File metadata and controls

107 lines (54 loc) · 7.55 KB

应用数据科学:解决预测性维护业务问题

原文:www.kdnuggets.com/2017/10/applied-data-science-solving-predictive-maintenance-business-problem.html

作者:Thomas Joseph,Aspire Systems。

在过去的几个月中,很多人向我询问如何从头到尾地进行数据科学项目,即从定义业务问题到建模和最终部署。当我考虑这个请求时,我觉得这是有道理的。数据科学文献中有很多关于特定算法或确定性方法的文章,以及如何处理问题的代码。然而,很少有关于如何针对特定业务用例进行数据科学项目的全面视角。从本周开始,我们将开始一系列名为“应用数据科学系列”的文章。在这个系列中,我将从头到尾地介绍如何在数据科学框架内解决业务用例或社会问题。在这个应用数据科学系列的第一篇文章中,我们将介绍一个预测性维护业务用例。所涉及的用例是预测大型工业电池的寿命,属于预防性维护用例的一种。


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速跟上网络安全的步伐。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持组织的 IT 工作


整体情况

在我们从数据科学的角度深入探究业务问题及其解决方法之前,让我们先来看一下数据科学项目的生命周期的全貌BigPicture

以上图表描述了从数据科学的角度解决业务问题所涉及的全貌。让我们从头到尾地处理每一个组成部分。

一切的开端……:业务发现

任何数据科学项目的起点都是业务问题。我们手头的问题是尝试预测大型工业电池的寿命。当我们遇到这样的业务问题时,首先应该考虑的是关键变量。对于电池的这个具体例子,一些决定电池健康状况的关键变量是导电率、放电率、电压、电流和温度。

接下来我们需要问的问题是关于这些变量内的领先指标或趋势,这将有助于解决业务问题。在这一点上,我们还必须从领域团队那里获得信息。对于电池的情况,事实证明,可以指示故障倾向的一个关键趋势是电导值的下降。电池的电导会随着时间的推移而下降,但是电导值下降的速率在故障点之前会加速。这是我们在对变量进行详细的探索性分析时必须注意的重要线索。

另一个可能起作用的关键变量是放电。当电池放电时,电压会首先降到最低水平,然后重新上升。这被称为“Coup de Fouet”效应。每个电池制造商都会制定标准和控制图表,规定电压可以降低多少以及恢复过程应该如何。任何偏离这些标准和控制图表的行为都将意味着异常行为。这是另一组指标,在探索数据时需要注意的。

除了上述两个指示器外,还有许多其他指标可以用来指示故障。在业务探索阶段,我们必须确定所有与我们要解决的业务问题相关的因素,并对它们提出假设。一旦我们提出了假设,我们必须寻找数据中与这些假设有关的证据/趋势。关于我们上面讨论的两个变量,我们可以提出一些假设,如下所示。

  1. 随着时间的推移,电导的逐渐下降意味着正常行为,而突然下降意味着异常行为。

  2. 超出制造“Coup de Fouet”效果的偏差将表明异常行为。

当我们开始探索数据时,像上面提到的假设将成为我们在涉及的变量上寻找趋势的参考点。我们根据领域专业知识制定的假设越多,在探索阶段就越好。既然我们已经看到了涉及业务发现阶段的内涵,让我们将我们在业务发现阶段的关键考虑因素概括起来。

  1. 了解我们要解决的业务问题

  2. 确定与业务问题相关的所有关键变量。

  3. 确定这些变量中的领先指标,有助于解决业务问题。

  4. 对领先指标形成假设

一旦我们从业务和领域的角度了解了足够的问题知识,现在是时候看看我们手头的数据了。

然后来了数据……:数据发现

在数据发现阶段,我们必须尝试了解有关数据如何捕获以及变量如何在数据集中表示的一些关键方面。数据发现阶段的一些关键考虑因素包括以下内容

  • 我们是否具有与业务发现阶段定义的所有变量和引导指标相关的数据?

  • 数据捕捉机制是什么?数据捕捉机制是否因变量而异?

  • 数据捕捉的频率是多少?是否在不同变量之间变化?

  • 数据捕捉的数量是否根据频率和涉及的变量而变化?

在电池预测问题的情况下,有三个不同的数据集。这些数据集涉及不同的变量集。数据收集的频率和捕获的数据量也有所不同。其中一些关键数据集包括以下内容

  • 导纳数据集:与电池导纳相关的数据。这是每 2-3 天收集一次。一些与导纳数据一起收集的关键数据点包括

    • 捕捉导纳数据的时间戳

    • 各个电池的唯一标识符

    • 其他相关信息,如制造商、安装位置、型号、连接的字符串等

  • 终端电压数据:关于电池的电压和温度的数据。每天收集一次。关键数据点包括

    • 电池的电压

    • 温度

    • 其他相关信息,如电池标识符、制造商、安装位置、型号、字符串数据等

  • 放电数据:放电数据每 3 个月收集一次。关键变量包括

    • 放电电压

    • 电压放电时的电流

    • 其他相关信息,如电池标识符、制造商、安装位置、型号、字符串数据等

DataSets

如上所述,我们必须处理三个非常不同的数据集,每个数据集都有不同的变量集,数据点到达时间的频率也不同,每个变量涉及的数据量也不同。我们会遇到一个关键的挑战就是将所有这些变量连接到一个连贯的数据集中,这将有助于预测任务。如果我们可以通过将可用的数据集与我们试图解决的业务问题连接起来来制定预测问题,那么这将更容易完成。让我们首先尝试制定预测问题。

关于这个主题的更多内容