原文:
www.kdnuggets.com/2016/07/interview-florian-douetteau-dataiku-empowering-data-scientists.html
作者:Ajay Ohri。
Dataiku 开发了一款名为 Data Science Studio (DSS) 的协作式端到端软件平台,企业可以利用它加速内部业务和预测解决方案的开发。它承诺大幅提高公司数据科学家、业务分析师和产品经理的效率和生产力。
Florian Douetteau 是 Dataiku 的首席执行官。Florian 在 Exalead 开始了他的职业生涯,这是一家创新的搜索引擎技术公司。在那里,他领导了一个由 50 位杰出数据专家组成的研发团队,直到该公司在 2010 年被 Dassault Systemes 以 1.5 亿美元收购。随后,Florian 在 IsCool 担任首席技术官,这是一个欧洲社交游戏领域的领军企业,他管理了游戏分析和其中一个最大的欧洲云设置。Florian 还曾担任多家公司(如欧洲广告领导者 Criteo)的自由职业首席数据科学家。
这是我与他的采访:
Ajay Ohri: 描述一下你作为数据科学创业公司的历程。是什么原因让你决定制作 DSS?
Florian Douetteau: 在 2012 年,我和我的合作伙伴看到了一次机会:数据科学市场极其碎片化。我们生活在一个非常有趣的技术宇宙中,有很多工具和选项可供使用和处理数据。今天的挑战更多在于应用合适的工具和位置,然后解决多个存储系统和语言的复杂性。例如,你可能会选择使用 Pig 进行一些数据处理,使用 Hive 进行计算,使用 Python 或 R 进行高级建模,使用 ElasticSearch 进行搜索,使用 Hadoop 进行大规模处理,等等。
因此,我们退后一步,审视整体情况:我们试图解决什么问题,为什么?现有的是什么,其他人又在尝试解决什么问题。接着,我们专注于用户。我们如何比其他解决方案更好地解决数据科学生态系统的碎片化问题(包括专有和开源解决方案)?这些用户从现有解决方案中得到了什么,如何智能地将其带给他们?对我们而言,这意味着使我们的用户,无论他们的技能水平如何,都能在保持使用自己熟悉的工具和语言的自由的同时进行协作。
Ajay Ohri: 描述一下你的产品——它如何帮助经验丰富的和有志于成为数据科学家的人员?
弗洛里安·杜埃托:Dataiku 坚信要在快速发展的数据生态系统中取得成功,不论公司行业或规模如何,都必须不断地自我革新并提供创新的数据产品。考虑到这一点,我们的使命是为所有组织提供技术环境,使其团队能够有效地提供未来的数据创新。Dataiku 的协作数据科学和机器学习方法使这些组织能够与过去十年中崛起的数字巨头竞争。
借助为数据科学家和初学者分析师设计的协作和团队化用户界面、统一的数据项目开发和部署框架,以及对设计数据产品所需的所有功能和工具的即时访问,用户可以轻松地将机器学习和数据科学技术应用于各种类型、规模和格式的原始数据,以构建和部署预测数据流。
最后,用户无需处理连接和敲打工具的麻烦,所有经验水平的用户都可以快速学习和精通 R 或 Python 等语言,并了解机器学习真正的含义。
阿贾伊·奥赫里:您的客户的用户反馈是什么?您能描述一些使用 DSS 的案例研究,这些案例研究显示 DSS 比其他数据科学编辑器带来了更好的结果吗?
弗洛里安·杜埃托:由于 Dataiku DSS 的协作功能和高级分析能力,像 AXA、欧莱雅、贝克特、Webbmason、Urban Insights 等客户能够轻松地将机器学习和数据科学技术应用于各种类型、规模和格式的原始数据,以构建和部署预测数据流。应用场景包括流失预测、欺诈检测、动态客户细分、成本和物流优化、预测性维护、趋势预测等。到目前为止,反馈非常好:团队生产力提高(“在几个月内,我们的生产力提高了 30%”),新的业务机会(“有了 DSS,我们已经内部化了数据解决方案的设计和部署”),开发出能带来额外收入和节省的解决方案(“DSS 已经回本”),快速上手(“我甚至让我们的营销和业务团队尝试了”),轻松安全的部署(“我们不再需要重新编写所有代码”)等等。我们计划保持这种状态!
阿贾伊·奥赫里:您如何看待在数据科学工作流中同时使用 Python 和 R?这种方法相比于单一语言的方法有什么优势?
弗洛里安·杜埃托:在一个项目中使用不同语言(从 SQL、R 或 Python 到 Hive、Pig,或所有 Spark 相关的内容)有两个主要优点:
-
不同语言更适合数据科学工作流的不同部分——例如,R 可能更适合统计计算,而 Python 更适合算法,Hive 则适合所有与 Hadoop 相关的内容。
-
人们对所有不同的语言和技术的适应程度差异不大。如果团队经理允许他们使用最熟悉的工具,就能确保优化生产力和个人自由。
Ajay Ohri: 许多数据输入越来越通过 API 或通过网页解析文本进行。DSS 如何处理构建 API 请求并将其解析为数据框架结构这一通常耗时的任务?
Florian Douetteau: 我们通过 DSS 提供了一套插件,帮助与不同的文本分析或 API 集成。例如,我们提供了一个免费的插件,供流行的 import.io 服务使用,一个 IMDB API 的插件,一个用于各种丰富开放数据源的插件,如美国专利数据库、OpenStreetMap 或古腾堡计划。
Ajay Ohri: 我们有 Jupyter 和 RStudio 作为成熟的数据科学界面。DSS 相对于它们有什么优势?DSS 在哪些方面不会是更好的选择?
Florian Douetteau: 我们已经将 Jupyter 集成到我们的产品中。我们产品的核心功能包括:可视化数据准备、可视化机器学习、可视化、工作流、SQL 笔记本、代码笔记本。代码笔记本实际上是用 Jupyter 框架实现的。
Ajay Ohri: 你未来的计划和想法是什么?我们可以通过使用更易于使用的工具来扩展数据科学家的池吗?
Florian Douetteau: 我喜欢关注两个新的有趣趋势。一个是“实时数据”:很快,所有关于构建处理来自动态、活跃系统的数据的产品都将成为重点。这意味着实时处理。这意味着深度学习技术。这意味着拥有能够处理实时数据结构复杂性的工具和技术。
另一个趋势是“思考型应用”。今天的大型企业有两大类应用程序:
-
强制执行业务流程的事务性应用程序,
-
提供数据洞察的报告应用程序。
对于需要遵循相对简单业务流程但涉及大量数据的应用程序的需求正在增加,这些数据通过算法减少和分析,并由人工进行最终交互。现代欺诈检测应用程序就是这种情况,其中算法减少了数据中的所有微弱信号,而人工分析结果警报。这也适用于现代营销活动管理应用程序,其中算法分析过去的活动,进行归因,预测当前活动的表现,而人工做出可能的新资源分配决策。在过程质量控制、预测性维护、运营支持、人力资源等领域也有对类似“思考型应用”的需求。
新鲜事是,如今对商业应用的需求不仅仅是被动显示信息或控制过程。人们期望应用程序能够与他们“思考”;在 Dataiku,我们可以帮助人们真正实现这些应用程序。这令人兴奋!
简介: Ajay Ohri 是两本 R 书籍的作者(《R 商业分析》 和 《R 云计算》),以及即将出版的关于 Python 的书籍 《Python for R 用户》。
相关:
-
Dataiku 数据科学工作室,现在也支持 Apache Spark
-
Python 和 R 结合使用:3 种主要方法
-
数据科学的碎片化是否会导致一个帝国还是多个共和国?
1. Google 网络安全证书 - 快速进入网络安全职业道路。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你所在的组织进行 IT 支持