原文:
www.kdnuggets.com/2015/02/data-science-confusing-jargon-abused.html
大数据正当红。全球网络设备系统每秒产生数 TB 的数据。负担得起的存储使得记录看似任意数量的信息成为可能。机器学习算法以及分布式计算,越来越能够从这些信息中提取可操作的智能。但“大数据”究竟意味着什么?
随着数据科学重要性的提升,与之相关的术语体系也在不断扩展。虽然许多术语定义明确,但其他术语则是流行词汇,在媒体中无处不在,却缺乏具体意义。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT
在这篇文章中,我将从多个角度, namely 理论家、实证数据科学家和新闻稿的夸张表述,提供对数据科学流行词的看法,这些表述往往被主流媒体盲目重复。
大数据
理论家: 大数据是一个定义不明确的术语。它可能比中等规模数据大,但又比巨型数据小。
数据科学家: 与长期主导机器学习研究的玩具数据集不同,今天的大数据足够庞大,无法方便地适应单台工作站的主内存。分析大数据需要利用分布式计算和并行算法。简而言之,大数据 是指比单台机器的主内存能容纳的数据更多的数据。
新闻稿: 大数据对软件开发人员而言是一个宝贵的资源,对现代企业来说,像水对地球生存一样必要。大数据利用云计算的力量生成多彩的图表,否则你在今天的经济中就会像恐龙一样过时。你是否有大数据策略来跟上硅谷的步伐?
云计算
理论家: 云指的是远程计算。幸运的是,对分布式系统的兴趣激发了对可并行算法的关注。
数据科学家: 分布式计算资源的可用性大大扩展了数据科学社区的能力。我们可以在数十台或数百台虚拟机上同时训练模型。我们可以使用 Hadoop 等工具分配计算资源。所有这些都无需在硬件上进行重大前期资本投资。
新闻稿: 云。服务。平台。谷歌,亚马逊,脸书,Azure。云无处不在。一切都在向云端迁移。一切都生活在云端。甚至云本身也在云端。公共云,私人云,元云。你的业务有云战略吗?
深度神经网络
理论家: 深度神经网络指的是一种图形模型,其中数据通过一层层的节点进行计算。‘神经’这个词可能会误导人。尽管这些系统的经验表现令人印象深刻,但其数学属性仍然不甚了解。
数据科学家: 受到生物学的启发,深度神经网络由接收兴奋性或抑制性输入的节点组成,边缘模拟突触。这些模型在涉及机器感知和自然语言的许多任务中实现了最先进的性能。
新闻稿: 深度学习是一项激进的新技术,利用大脑的力量赋予机器类人的智能。这项变革性技术可能加速奇点的到来,催生出能够思考、感受、吸收人类知识总和并殖民半人马座α星的类人机器人一代。
隐私
理论家: 长期以来,“隐私”缺乏具体定义。在过去几年中,已经在数据库查询机制的背景下提出了一些隐私的数学定义。差分隐私量化了个人信息由于其包含在数据库中而泄露的概率。
数据科学家: 在互联网上,很可能没有人正在做任何保护你隐私的工作。我们是为了从数据库中提取信息而获得报酬的,而不是为了防止信息泄露而加固它们。为什么要在数据中添加噪音呢?这会使我们的算法性能看起来更差。隐私并不存在。
新闻稿: 你的信息经过四重加密,采用银行级的 Fort Knox 安全保护!没有人,甚至我们的 CEO 都无法查看你的私人信息。使用我们的产品,知道隐私是我们的首要任务!
预测编码 / 数据分析
理论家: 预测编码是文档分类的重新品牌化,用于向律师销售电子发现产品。数据分析是数据分析的同义词。
数据科学家: 当我们向一家律师事务所推介一个用户友好的二分类工具,以帮助通过线性模型和词袋表示法检索相关文档时,他们并未感到满意。在下一个演示文稿中,我们描述了“预测编码”,我们的突破性“数据分析”技术用于“知识大脑”。
新闻稿: 预测编码代表了人工智能与法律工作流程之间的变革性协同,以前所未有的规模为客户带来成功。最先进的预测编码数据分析将使你的竞争对手过时。
Zachary Chase Lipton 是加州大学圣地亚哥分校计算机科学工程系的博士生。在生物医学信息学部资助下,他对机器学习的理论基础和应用都感兴趣。除了在 UCSD 的工作外,他还曾在微软研究院实习。
相关:
-
(深度学习的深层缺陷)’s 深层缺陷
-
差分隐私:如何使隐私与数据挖掘兼容
-
Geoff Hinton AMA:神经网络、大脑和机器学习