原文:
www.kdnuggets.com/2015/09/questions-data-science-can-answer.html/2
多分类作为回归
有时,看似多值分类的问题实际上更适合回归。例如,“哪个新闻故事对这位读者最有趣?”看起来像是要求一个类别——从新闻故事列表中选择一个项目。然而,你可以将其改述为“这个列表中的每个故事对这位读者有多有趣?”并为每篇文章打分。然后,识别得分最高的文章就很简单。这类问题通常以排名或比较的形式出现。
-
“我的车队中哪辆车最需要维修?”可以改述为“我车队中的每辆车需要维修的程度有多严重?”
-
“我的哪 5%客户将在明年离开我的业务去找竞争对手?”可以改述为“我的每个客户在明年离开我的业务去找竞争对手的可能性有多大?”
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升您的数据分析技能
3. Google IT 支持专业证书 - 支持您的组织的 IT
二分类作为回归
二分类问题也可以改述为回归问题,这可能并不令人惊讶。(事实上,一些算法在底层会将每个二分类问题改述为回归。)当一个示例可以同时属于 A 和 B 部分,或有可能朝两个方向发展时,这尤其有用。当一个答案可以部分是肯定的也可以是否定的,可能是开启的也可能是关闭的,那么回归可以反映这一点。这类问题通常以“可能性有多大……”或“比例是多少……”开始。
-
这个用户点击我的广告的可能性有多大?
-
拉动这个老虎机的多少比例会得到回报?
-
这个员工成为内部安全威胁的可能性有多大?
-
今天有多少航班会按时起飞?
正如你可能已经了解到的,二分类、多分类、异常检测和回归的家庭都是紧密相关的。它们都属于同一个扩展家庭,即监督学习。它们有很多共同点,问题经常可以在其中一种或多种方式中进行修改和提出。它们的共同点在于,它们是通过一组带标签的示例(一个称为训练的过程)构建的,之后可以将值或类别分配给未标记的示例(一个称为评分的过程)。
完全不同的数据科学问题属于无监督学习和强化学习的扩展算法家族。
这些数据是如何组织的?
关于数据如何组织的问题属于无监督学习。有多种技术尝试揭示数据的结构。这些技术中有一类执行聚类,也称为分块、分组、聚集或分段。它们试图将数据集分成直观的块。与监督学习不同的是,聚类没有一个数字或名称来告诉你每个点属于哪个组,组的代表是什么,甚至组的数量。若监督学习是从夜空中的星星中挑选行星,那么聚类就是发明星座。聚类试图将数据分成自然的“簇”,以便人类分析师更容易解读并向他人解释。
聚类始终依赖于一种被称为距离度量的相似度定义。距离度量可以是任何可测量的量,比如智商差异、共享基因对数或飞行距离。聚类问题都试图将数据分成更接近的组。
-
哪些购物者在农产品上的口味相似?
-
哪些观众喜欢相同类型的电影?
-
哪些打印机型号以相同的方式出现故障?
-
在一周中的哪些天,这个电力变电站的电力需求相似?
-
将这些文档自然地分成五个主题组的方式是什么?
另一类无监督学习算法被称为降维技术。降维是简化数据的另一种方式,使数据更易于沟通、计算更快、存储更方便。
从本质上讲,降维就是创建一种描述数据点的简写方式。一个简单的例子是 GPA。大学生的学术实力通过数十门课程、数百次考试和数千项作业来衡量。每项作业都反映了学生对课程材料的理解程度,但完整的列表对任何招聘人员来说都太庞大了。幸运的是,你可以通过将所有分数平均来创建一个简写。你可以通过这种大幅简化来解决问题,因为在某项作业或课程中表现非常好的学生通常在其他课程中也表现很好。使用 GPA 而不是完整的作品集虽然会失去丰富性,例如你无法知道学生在数学方面是否比英语强,或者她在家庭编程作业中的成绩是否优于课堂小测。但你获得的是简单性,这使得谈论和比较学生的能力变得更容易。
与降维相关的问题通常涉及那些一起变化的因素。
-
在这台喷气发动机中,哪些传感器组彼此之间(以及相互对立)变化?
-
成功的首席执行官有哪些共同的领导实践?
-
美国的汽油价格变化中最常见的模式是什么?
-
在这组文档中,哪些词汇组经常一起出现?(它们涵盖了哪些主题?)
如果你的目标是总结、简化、压缩或提炼一组数据,降维和聚类是你的首选工具。
我现在该怎么办?
机器学习算法的第三个扩展家族专注于采取行动。这些被称为强化学习(RL)算法。它们与监督学习和无监督学习算法略有不同。回归算法可能预测明天的高温将达到 98 度,但它不会决定如何处理这个结果。而 RL 算法则进一步采取行动,例如在白天气温仍然较低时预先为办公楼的上层制冷。
强化学习算法最初受到老鼠和人类大脑如何对惩罚和奖励做出反应的启发。它们选择行动,努力选择能够获得最大奖励的行动。你需要为它们提供一系列可能的行动,并且它们需要在每次行动后获得反馈,以了解该行动是好、一般还是严重错误。
通常,强化学习算法非常适合需要在没有人工指导的情况下做出大量小决策的自动化系统。电梯、供暖、制冷和照明系统是很好的候选者。强化学习最初是为了控制机器人而开发的,因此任何自动移动的设备,从检查无人机到吸尘器,都适用。强化学习解决的问题总是关于应该采取什么行动,尽管行动通常由机器执行。
-
我应该把这则广告放在网页的什么位置,以便观众最有可能点击?
-
我应该将温度调高、调低,还是保持不变?
-
我应该再次吸尘客厅,还是保持充电?
-
我现在应该买多少股这只股票?
-
对于那盏黄灯,我应该继续以相同的速度行驶、刹车,还是加速?
强化学习通常需要比其他算法类型更多的努力才能起效,因为它与系统的其他部分紧密集成。好处是,大多数强化学习算法可以在没有任何数据的情况下开始工作。它们在过程中收集数据,通过试错来学习。
本系列的下一篇也是最后一篇文章将提供许多具体的数据科学问题示例及适合每个问题的算法家族。敬请关注。
布兰登
关注我 Twitter 或在 LinkedIn 上联系我。
原文。
相关:
-
分析、数据挖掘、数据科学的应用
-
入门级分析专业人员的 10 个关键技巧
-
采访:Ali Vanderveld,Groupon 讨论数据科学如何改变全球电子商务市场
-
Reiner Kappenberger,HP Security Voltage 讨论如何保护数据传输中的安全