原文:
www.kdnuggets.com/2015/12/tour-real-world-machine-learning-problems.html
由 Jason Brownlee 撰写
在这篇文章中,你将体验现实世界机器学习问题的巡礼。你将看到机器学习如何在教育、科学、技术和医学等领域实际应用。
每个列出的机器学习问题还包括一个指向公开可用数据集的链接。这意味着,如果某个具体的机器学习问题引起了你的兴趣,你可以下载数据集并立即开始实践。
最受欢迎的 Kaggle 数据集这前 10 个机器学习问题的示例取自于竞争性机器学习网站 Kaggle.com。受欢迎程度基于参与团队的数量。
-
Otto 集团产品分类挑战。根据产品的特征数据将产品分类到 9 个产品类别中的一个。
-
Rossmann 门店销售。根据门店的历史销售数据,预测未来的销售情况。
-
共享单车需求。根据每日单车租赁和天气记录预测未来每日单车租赁需求。
-
分析边缘。根据《纽约时报》文章的详细信息预测哪些新闻文章将会受欢迎。
-
餐厅收入预测。根据餐厅地点的详细信息预测餐厅在某一年的收入。
-
Liberty Mutual 集团:物业检查预测。根据检查过的物业的详细信息预测物业的危险评分。
-
Springleaf 营销响应。根据客户的特征预测他们是否是营销目标。
-
希格斯玻色子机器学习挑战。根据模拟粒子碰撞的描述预测事件是否衰变成希格斯玻色子。
-
森林覆盖类型预测。根据制图变量预测森林覆盖类型。
-
亚马逊员工访问挑战。根据员工的历史资源访问变化预测员工所需的资源。
最受欢迎的研究数据集
接下来的 10 个机器学习问题是加州大学欧文分校机器学习库网站上最受欢迎的问题,该网站传统上托管机器学习研究社区使用的数据集。
-
鸢尾花数据集。根据花朵的厘米测量值预测鸢尾花的种类。
-
成人数据集。根据人口普查数据预测个人年收入是否超过 50,000 美元。
-
葡萄酒数据集。根据葡萄酒的化学分析预测葡萄酒的来源。
-
汽车评估数据集。根据汽车的详细信息预测汽车的安全性。
-
乳腺癌威斯康星数据集。根据乳腺组织的诊断测试结果预测肿块是否为肿瘤。
-
鲍勃数据集。根据鲍勃的测量值预测鲍勃的年龄。
-
葡萄酒质量数据集。根据各种葡萄酒的测量值预测葡萄酒的质量。
-
心脏病数据集。根据患者各种诊断测试的结果预测患者的心脏病程度。
-
扑克手牌数据集。根据扑克手牌数据库预测手牌的质量。
-
使用智能手机进行人类活动识别的数据集。根据智能手机的运动数据预测持有智能手机的人的活动类型。
-
森林火灾数据集。根据气象和其他因素预测森林火灾的烧毁面积。
-
互联网广告数据集。根据网页上的图像详细信息预测图像是否为广告。
最终世界
我们快速浏览了 20 个现实世界的机器学习问题。
这些是全球科学和商业组织提出或研究的实际问题。
更令人兴奋的是,这些多样化的问题都有公开可用的数据集,并且广泛地被研究和理解。
这意味着你可以立即下载数据,探索问题,实施自己的模型,或重现别人的模型。
作者简介
杰森·布朗利是 MachineLearningMastery.com 的主编。他是丈夫、父亲、研究员、作者、专业程序员和机器学习从业者。
相关:
-
5 步真正学习数据科学
-
来自 Quora 的最佳建议:“如何学习机器学习”
-
60+本关于大数据、数据科学、数据挖掘、机器学习、Python、R 等的免费书籍