Skip to content

Latest commit

 

History

History
63 lines (32 loc) · 5.15 KB

openml-share-discover-do-machine-learning.md

File metadata and controls

63 lines (32 loc) · 5.15 KB

OpenML:分享、发现和进行机器学习

原文:www.kdnuggets.com/2014/08/openml-share-discover-do-machine-learning.html

openml

最近,一篇有趣的论文介绍了OpenML,这可能提供了一种挖掘数据的替代方法。不要混淆。这里介绍的 OpenML 是一个开放科学平台,正如其名称所示,机器学习研究人员可以在这里分享他们的所有数据集、算法和实验。它的标志由四种颜色组成,每种颜色代表 OpenML 的一个重要部分。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持组织中的 IT 工作


以下是 OpenML 的四个关键数字。(截至 2014 年 8 月 11 日)

***230 个数据集。***这些是机器学习的输入数据——如蘑菇数据库、垃圾邮件、字母图像识别等。每个数据集提供了属性的简要描述,如默认准确度、类别数、特征数等。

***1172 个任务。***如果研究人员想要操作数据,则会创建任务。这些任务分为四种类型:监督分类、学习曲线、监督数据流分类和监督回归,具体取决于期望分享的结果类型。所有用户都可以下载并解决这些任务。

***364 个流程。***流程是解决 OpenML 任务的算法、工作流或脚本的实现,通常通过插件完成。科学家们还可以上传实际代码或通过 URL 引用它,如果代码托管在 GitHub 或其他开源平台上。在每个流程页面上,都会比较该流程运行过的所有任务的结果。

24990 次运行尝试解决任务并获得所需输出称为一次运行。以运行 24980 为例。它在任务 36上执行Flow weka.Bagging_SMO_PolyKernel(1),这是对数据集segment监督分类。它还提供了评估结果,如 AUC、混淆矩阵、预测准确性等。人们可以轻松比较同一任务上的所有运行结果。

openml_weka

值得一提的是,OpenML 可以与其他机器学习工具集成,如 Weka、R,以便人们可以自动上传数据和代码。例如,在 Weka 中,我们可以添加多个任务和 Weka 算法进行运行。插件将下载所有数据,在每个任务上运行每个算法,然后自动将结果上传到 OpenML。手动运行上传目前正在开发中。人们只能通过插件或 API(Java/R)上传运行结果。

OpenML 还是 Kaggle?

开源平台的好处随着用户的增加而增长。当人们开始熟悉 OpenML 时,上述数字肯定会增加,或者当你阅读这篇文章时可能已经在增长。OpenML 的一个明显好处是研究人员可以定义自己的任务,并构建算法来解决其他任务。所有共享的结果都在线存储和组织,方便访问、重用和讨论。

你可能会想到 Kaggle,人们也可以在上面下载数据集并评估不同的算法。然而,OpenML 的设计目的是共享和比较研究结果。它侧重于合作,而不是竞争。在 Kaggle 竞赛中展示机器学习技能是个好主意。但只要进行足够的运行,OpenML 将是一个发现新知识的地方。

Ran Bi 是纽约大学数据科学项目的硕士生。在 NYU 学习期间,她完成了多个机器学习、深度学习及大数据分析的项目。她的本科背景是金融工程,因此也对商业分析感兴趣。

相关:

  • Prediction.io 开源机器学习服务器

  • MLlib:Apache Spark 的机器学习组件

  • 当 Watson 遇到机器学习

更多相关话题