Skip to content

Latest commit

 

History

History
75 lines (38 loc) · 6.79 KB

data-science-big-data-different-beasts.md

File metadata and controls

75 lines (38 loc) · 6.79 KB

数据科学与大数据:两种截然不同的事物

原文:www.kdnuggets.com/2015/07/data-science-big-data-different-beasts.html

由肖恩·麦克卢尔(ThoughtWorks)。

2 Beasts

在今天的经济中,数据的重要性难以夸大。我们使用的工具和采取的行动消耗并生成我们世界的数字版本,所有这些都被捕获,等待使用。数据已成为大多数行业中真正感兴趣的资源,并被正确地视为竞争优势和颠覆性战略的入口。


我们的三大课程推荐

1. 谷歌网络安全证书 - 快速开启网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


随着数据的兴起,出现了两种不同的努力,旨在利用其潜力。一种被称为数据科学,另一种是大数据。这些术语经常被互换使用,尽管它们在将数据的潜力带到组织门前时扮演着根本不同的角色。

尽管有人认为“数据科学”和“大数据”这两个术语仍然存在混淆,但这更多地与营销利益有关,而不是对这些术语在实际项目中的真实含义的诚实看待。数据科学旨在创建捕捉复杂系统潜在模式的模型,并将这些模型编码为可工作的应用程序。大数据则旨在收集和管理大量多样化的数据,以服务于大规模的网络应用程序和广泛的传感器网络。

尽管两者都有可能从数据中产生价值,但数据科学与大数据之间的根本区别可以用一句话来总结:

收集并不意味着发现

尽管这一声明显而易见,但在急于将公司的技术工具库填充数据智能技术的过程中,其真实性常常被忽视。价值往往被框架成仅通过收集更多数据来增加的东西。这意味着对数据焦点活动的投资更多地集中在工具而非方法上。工程车往往被摆在科学马之前,导致组织拥有一大套工具,却对如何将数据转化为有用的东西知之甚少。

将矿石送到空旷的车间

自铁器时代开始,铁匠们利用他们的技能和专长将原料转化为各种有价值的产品。通过使用特定领域的工具,铁匠将原材料锻造、拉伸、弯曲、冲压和焊接成有用的物品。经过多年的研究、试验和错误,铁匠学会了使用特定的气体、特定的温度、受控的气氛和各种矿石来源,以生产出符合其独特应用的定制产品。

锻造铁

随着工业革命的到来,能够更高效地将原材料转化为有价值的产品并进行规模化。但对规模化的关注并不是获取更多的材料,而是构建能够规模化和机械化转化专长的工具。随着这种机械化的发展,对工艺的理解变得更加重要,因为为了有效地操作、维护和在规模化中创新,必须深刻理解将原材料转化为能满足市场不断变化需求的产品的过程。

在数据的世界中,这种将原始资源转化为有价值的东西的专长被称为数据科学。之所以需要科学来将原始资源转化为有价值的东西,是因为从‘地面’中提取出的数据从未以有用的形式存在。‘原始数据’中充斥着无用的噪声、无关的信息和误导性的模式。将这些转化为我们所追求的珍贵事物,需要研究其属性并发现一个能捕捉我们感兴趣行为的有效模型。尽管存在噪声,拥有一个模型意味着一个组织现在拥有了进一步发现和创新的开端。对于他们的业务而言,这是一种独特的优势,赋予他们了解需要寻找的内容,以及对一个可以被机械化和规模化的世界的编码描述。

转化应当在收集之前进行规模化

没有行业会在没有相应专长的情况下投资资源的开采。在任何行业中,这都会被视为一个糟糕的投资。将矿石装上卡车却送到一个空荡荡的车间,几乎没有战略上的好处。

大数据的一个不幸方面是,我们往往需要查看最大的公司,以了解他们为在市场中竞争而设计的解决方案。但这些公司很少代表大多数组织面临的挑战。他们的主导地位通常意味着他们面临着非常不同的竞争,他们的工程工作主要是为了服务于大规模应用。这个工程对于日常操作至关重要,并且要满足高吞吐量和容错架构的要求。但它对于发现和转化所收集的数据成有价值的模型,捕捉市场运作背后的驱动因素的能力几乎没有说明。用数据来竞争的意义在于能够解释和预测组织的动态环境。

理解数据科学与大数据之间的区别对于投资于有效的数据战略至关重要。对于那些希望利用数据作为竞争资产的组织,最初的投资应集中在将数据转化为价值上。重点应放在数据科学上,以建立将数据从原始状态转化为相关性的模型。随着时间的推移,大数据方法可以与数据科学相辅相成。提取的数据种类的增加可以帮助发现新事物或改善现有模型的预测或分类能力。

填充车间所需的技能和专业知识,以将数据转化为有用的东西。带来的矿石将成为定义业务的产品。

简介: 肖恩·麦克卢尔,博士,是 ThoughtWorks 的高级数据科学家。

相关:

  • 数据科学中的缺失 D

  • 疑问与验证:数据科学的强大工具

  • 2015 年预测:大数据和数据科学会发生什么?

更多相关话题