Skip to content

Latest commit

 

History

History
69 lines (35 loc) · 10.9 KB

interview-arno-candel-0xdata-deep-learning.md

File metadata and controls

69 lines (35 loc) · 10.9 KB

采访:阿尔诺·坎德,H2O.ai 谈深度学习基础

原文:www.kdnuggets.com/2015/01/interview-arno-candel-0xdata-deep-learning.html

arno-candel-h2o阿尔诺·坎德博士H2O.ai的物理学家和黑客。在此之前,他是 Skytree 的创始高级 MTS,负责设计和实施高性能机器学习算法。他拥有十多年高性能计算的经验,并曾作为 SLAC 国家加速器实验室的工作人员科学家,访问世界上最大的超级计算机,参与了美国能源部的科学计算计划,并与 CERN 合作。阿尔诺撰写了几十篇科学论文,是备受追捧的会议演讲者。

他在苏黎世联邦理工学院获得了物理学博士和硕士学位,并以优异成绩毕业。阿尔诺被《财富》杂志评选为2014 年大数据全明星

这是我与他的采访:

安莫尔·拉吉普罗希特: Q1. 你如何定义深度学习?它与其他机器学习技术有何不同?

deep-learning阿尔诺·坎德博士: 深度学习方法使用多个非线性变换的组合来建模数据中的高级抽象。多层前馈 人工神经网络 是一些最古老且最有用的技术。我们现在正在享受深度学习60 年的发展成果,这一过程始于 1950 年代末,当时首次提出了机器学习这个术语。深度学习在过去十年的成功很大程度上归因于摩尔定律和计算机的指数加速,但也有许多算法突破使得深度学习者的训练更加稳健。

与诸如基于树的方法等更易解释的机器学习技术相比,传统的深度学习(使用随机梯度下降反向传播)是一种相当“蛮力”的方法,它通过不断查看训练数据中的示例,从随机噪声开始优化大量的系数(这是一种参数化方法)。它遵循“(好的)实践使完美”的基本理念(类似于真实的大脑),但对模型质量没有强有力的保证。

现代典型的深度学习模型有数千个神经元,并学习数百万个自由参数(神经元之间的连接),但在神经元数量上(~100,000)甚至尚未能与果蝇的大脑相媲美。最先进的专用深度学习系统正在学习数十亿个参数,这仍然比人脑中的神经连接数量少约 10,000 倍。

然而,即使一些显著较小的深度学习模型已经在许多任务上超越了人类,因此人工智能的领域无疑变得更加有趣。

AR: Q2. 什么特征使得深度学习能够在标准机器学习问题上提供如此优越的结果?是否有特定的问题子集,其中深度学习比其他选项更有效?

AC: 深度学习在从原始输入特征中学习非线性派生特征方面非常有效,这与线性或基于树的方法等标准机器学习方法不同。例如,如果年龄和收入是预测支出的两个特征,那么线性模型将极大受益于手动分割年龄和收入范围为不同的组;而基于树的方法则会自动学习如何划分二维空间。

深度学习模型建立了(隐藏的)非线性特征的层次结构,这些特征组合起来可以以比其他方法少得多的努力来逼近任意函数,如 sqrt((*age-40)²+0.3log(income+1)-4)。传统上,数据科学家根据领域知识和经验明确地执行这些转换,但深度学习已被证明 这些转换极其 有效,通常比标准机器学习模型表现出更大的优势。

深度学习在预测高基数类别成员方面也表现出色,例如图像或语音识别问题,或预测推荐给用户的最佳项目。深度学习的另一个优势是它还可以用于无监督学习,其中它仅仅学习数据的内在结构而不做预测(还记得Google 猫吗?)。这在没有训练标签的情况下,或用于各种其他用例,如异常检测时很有用。

anomaly-detection-h2o

AR: Q3. H2O 架构的关键组件是什么?使用 H2O 进行深度学习有什么独特优势?

h2oAC: H2O 的独特之处在于它是GitHub 上排名第一的基于 Java 的开源机器学习项目(我们正在进行一个更开发者友好的重写的最后阶段)。它建立在一个分布式键值存储之上,该存储基于全球最快的非阻塞哈希表,由我们的首席技术官兼联合创始人Cliff Click编写,他因对快速 Java HotSpot 编译器的贡献而闻名。

H2O 的设计旨在以 FORTRAN 速度处理大型数据集(例如,来自 HDFS、S3 或 NFS),使用高效的(细粒度)内存中实现的著名 Mapreduce 范式,带有内置的无损列压缩(通常优于磁盘上的 gzip)。H2O 不需要 Hadoop,但可以通过 MRv1、YARN 或 Mesos 在 Hadoop 集群上启动,以实现与 HDFS 的无缝数据摄取。

sparkling-waterSparkling Water紧密集成了 Apache Spark 中的数据管道与 H2O。除了原生JavaScala API 外,H2O 还提供了一个强大的 REST API,可以通过RPythonTableau客户端进行连接。它还支持我们易于使用的 Web API,用于互动探索 H2O 的功能。此外,还自动生成了 Java 代码,用于将模型直接投入生产(例如,与 Storm 一起使用),这对于许多企业客户非常有用。

H2O 及其方法也得到了风险投资的支持,并且有一些机器学习领域最为知识渊博的专家:斯坦福大学教授特雷弗·哈斯提罗布·提布希拉尼斯蒂文·博伊德。其他独立的导师包括 Java API 专家乔什·布洛赫以及 S 和 R-core 成员创始人约翰·钱伯斯。我们实际上花了好几天时间讨论算法、API 和代码,这是极大的荣誉和特权。当然,来自开源社区的客户和用户也在不断验证我们的算法。

h2o-architecture

对于 H2O 深度学习,我们将许多小技巧结合起来,使其成为一种开箱即用的非常强大的方法。例如,它具备自动自适应权重初始化、自动数据标准化、分类数据扩展、自动处理缺失值、自动自适应学习率、各种正则化技术、自动性能调优、负载均衡、网格搜索、N 折交叉验证、检查点和不同的分布式训练模式等功能。最棒的是,用户无需了解任何神经网络,没有复杂的配置文件。训练过程与随机森林一样简单,并且可以对监督回归或分类问题进行预测。对于高级用户,还有许多(文档齐全的)选项可以实现对学习过程的精细控制。默认情况下,H2O 深度学习将充分利用整个集群的每一个 CPU 核心,并且经过高度优化以获得最佳性能。

我分享了我们首席执行官兼联合创始人SriSatish Ambati的愿景,即这些最近的机器智能进展可以催生出一个智能应用的整体生态系统,并从根本上丰富我们的生活。

访谈的第二部分

相关:

  • 阿尔诺·坎德尔谈如何快速启动 H2O 深度学习

  • 阿尔诺·坎德尔谈从物理学到机器学习的旅程

  • 研究领导者谈数据挖掘、数据科学和大数据的关键趋势、顶级论文

更多相关主题