Skip to content

Latest commit

 

History

History
145 lines (73 loc) · 13.6 KB

big-data-data-science-explained.md

File metadata and controls

145 lines (73 loc) · 13.6 KB

数据科学与大数据,解释

原文:www.kdnuggets.com/2016/11/big-data-data-science-explained.html

介绍

什么是数据科学?什么是大数据?这些术语是什么意思,为什么弄清楚它们很重要?这些确实是热门话题,但经常被误解。此外,涉及的行业对这两个术语没有普遍一致的定义。

这些是极其重要的领域和概念,正变得越来越关键。世界上从未像今天这样收集或存储如此多的数据,而且速度如此之快。此外,数据的多样性和量也在以惊人的速度增长。


我们的三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析水平

3. Google IT 支持专业证书 - 支持你所在组织的 IT


为什么你应该关注数据科学和大数据?数据在许多方面类似于黄金。它非常宝贵,有很多用途,但你通常需要挖掘才能实现其价值。

InnoArchiTech post image

这些是新领域吗?关于数据科学是否为新领域存在很多争议。许多人认为,类似的实践已被称为统计学、分析、商业智能等。无论如何,数据科学是一个非常流行且突出的术语,用于描述许多不同的数据相关过程和技术,接下来将进行讨论。另一方面,大数据相对较新,因为收集的数据量以及相关挑战继续需要新的创新硬件和处理技术。

本文旨在为非数据科学家提供数据科学和大数据背后许多概念和术语的全面概述。虽然相关术语会在很高的层次上提及,但鼓励读者探索参考资料和其他资源以获取更多细节。另有一篇文章将深入探讨相关技术、算法和方法。

有鉴于此,让我们开始吧!

数据科学定义

数据科学是复杂的,涉及许多特定领域和技能,但一般定义是,数据科学包括从数据中提取信息和知识的所有方式。

数据无处不在,并且以巨大的、指数增长的数量存在。数据科学整体上反映了无论数据的大小如何,数据被发现、条件化、提取、汇编、处理、分析、解释、建模、可视化、报告和呈现的方式。大数据(如即将定义的)是数据科学的一个特殊应用。

数据科学是一个非常复杂的领域,这主要是由于它所涉及的学术学科和技术的多样性和数量。数据科学包括数学、统计学、计算机科学与编程、统计建模、数据库技术、信号处理、数据建模、人工智能与学习、自然语言处理、可视化、预测分析等。

数据科学在许多领域都具有高度的应用性,包括社交媒体、医学、安全、医疗保健、社会科学、生物科学、工程、国防、商业、经济学、金融、营销、地理定位等。

大数据定义

大数据本质上是数据科学的一个特殊应用,其中数据集庞大,需要克服后勤挑战以处理这些数据。主要关注点是有效地捕获、存储、提取、处理和分析这些庞大数据集中的信息。

由于物理和/或计算限制,这些巨大的数据集的处理和分析通常不可行或难以实现。因此,需要特殊的技术和工具(例如,软件、算法、并行编程等)。

大数据是用来涵盖这些大型数据集、专业技术和定制工具的术语。它通常应用于大型数据集,以进行一般数据分析、发现趋势或创建预测模型。

InnoArchiTech 发布的图片

你可能会想,为什么“大数据”这个术语如此引人注目。我们已经长期在各种数据存储机制上收集了大量不同类型的数据,对吗?是的,但我们从未像今天这样享有如此廉价的数据收集、存储能力和计算能力。此外,我们以前也没有如此轻松地获取到廉价而强大的原始数据传感技术、仪器等,这些都导致了今天巨大的数据集的产生。

那么这些数据到底来自哪里呢?大量数据是从移动设备、遥感、地理位置、软件应用、多媒体设备、射频识别读卡器、无线传感网络等处收集的。

大数据的一个主要组成部分是所谓的三大 V(3Vs)模型。该模型将大数据的特征和挑战表示为处理体积、种类和速度。IBM 等公司还包括了第四个“V”,即真实性,而维基百科也提到了可变性。

大数据本质上旨在解决处理大量不同类型、不同质量的数据的问题,这些数据有时以巨大的(实时)速度被捕获和处理。可以说这是一个不小的挑战!

总结来说,大数据可以被视为一个相对术语,适用于需要实体(个人、公司等)利用专门的硬件、软件、处理技术、可视化和数据库技术来解决与3Vs及类似特征模型相关的问题的大型数据集。

数据类型和数据集

数据以许多不同的方式收集,如前所述。可用数据的生命周期通常包括捕获、预处理、存储、检索、后处理、分析、可视化等。

一旦捕获,数据通常被称为结构化、半结构化或非结构化。这些区分很重要,因为它们直接关系到所需的数据库技术和存储、查询和处理数据的软件和方法以及处理数据的复杂性。

结构化数据是指存储在关系数据库或电子表格中的数据(或由结构或模式定义的数据)。由于数据的“结构”是已知的,通常可以使用 SQL(结构化查询语言)轻松查询。例如,销售订单记录就是一个很好的例子。每个销售订单都有购买日期、购买的商品、购买者、总费用等。

非结构化数据是指没有任何模式、模型或结构定义的数据,也没有以特定方式组织的。换句话说,它只是原始数据。想象一下地震仪(顺便说一下,地震是我很担心的一个问题!)。你可能见过这种设备捕捉到的弯曲线条,这些线条本质上表示在每个地震仪位置记录的能量数据。记录的信号(即数据)表示随时间变化的能量量。在这种情况下没有结构,它只是由信号表示的能量变化。

自然地,半结构化数据是两者的结合。它基本上是附加了结构化数据(即元数据)的非结构化数据。每次你用智能手机拍照时,快门捕捉光反射信息作为一堆二进制数据(即 1 和 0)。这些数据没有结构,但相机还附加了额外的数据,包括照片拍摄的日期和时间、上次修改时间、图像大小等。这就是结构化部分。数据格式如 XML 和 JSON 也被视为半结构化数据。

数据挖掘、描述、建模和可视化

为了使数据以有意义的方式使用,它们首先被捕获、预处理和存储。在此过程之后,数据可以被挖掘、处理、描述、分析,并用于构建既具描述性又具预测性的模型。

InnoArchiTech 帖子图片

描述性统计 是一个术语,用于描述应用统计学于数据集,以便描述和总结数据包含的信息。基本上,它包括在一个具有均值、中位数、众数、方差、标准差等的分布背景下描述数据。描述性统计 还描述了其他形式的分析和可视化。

推断统计 和数据建模则是非常强大的工具,可以用来深入理解数据,并推断(即预测)数据收集之外的条件的意义和结果。通过使用某些技术,可以创建模型,并根据涉及的数据动态做出决策。

除了描述性统计推断统计,另一个领域叫做计算统计(计算科学的一个子集),在数据科学和大数据应用中通常扮演重要角色。计算统计 涉及利用计算机科学、统计学和算法,使计算机能够实现统计方法。这些方法在预测分析或预测建模等领域中被大量使用。机器学习可以被视为在预测建模背景下应用某些算法的一个例子。

数据通常也会被挖掘以便进行可视化分析。通过战略性地使用合适的图形、图表、图示和表格,许多人能够更快、更深入、更自然地理解数据。这些信息展示方法可用于显示类别数据和定量数据。将这些展示类型应用于数据表示的过程称为数据可视化。

这些技术、方法论、统计学和可视化主题将在即将发布的帖子中得到更详细的讲解。

数据管理与行业工具

处理数据科学和大数据所需的软件和数据库技术有很多。许多数据库设计旨在遵循 ACID 原则,即原子性、一致性、隔离性和持久性。

InnoArchiTech 帖子图片

我们首先讨论数据库技术。自 1980 年代以来,数据库管理系统(DBMS)及其关系型数据库(RDBMS)是最广泛使用的数据库系统。它们通常非常适合基于事务的操作,并且通常遵循 ACID 原则。

关系型系统的缺点是这些数据库相对静态,且严重偏向结构化数据,以非直观和非自然的方式表示数据,并且产生显著的处理开销,因此性能较差。另一个缺点是基于表的数据通常无法很好地表示实际数据(即领域/业务对象)。这被称为对象关系阻抗不匹配,因此需要在基于表的数据和实际问题领域对象之间进行映射。描述的数据库管理系统包括 Microsoft SQL Server、Oracle、MySql 等。

NoSql 数据库技术近年来变得非常流行,这也是有充分理由的。NoSql 是一个用于描述非关系型、具有高度可扩展性、允许动态模式并且能够处理大量数据访问的高频率的数据库系统的术语。它们还以更自然的方式表示数据,能够轻松处理之前提到的三种类型的数据,并且性能优越。

因此,NoSql 数据库主要用于高规模交易。NoSql 数据库系统包括 MongoDB、Redis、Cassandra 和 CouchDb 等。请注意,NoSql 数据库有多种类型,包括文档型、图形型、键值型和宽列型。

NewSQL 是一种相对较新的数据库管理系统。这些系统试图将关系型数据库管理系统的最佳特性(例如,ACID)和查询语言(即 SQL)与 NoSQL 数据库的高度可扩展性能结合起来。对于 NewSQL 是否能获得足够的流行度以便像关系型和 NoSQL 数据库一样获得采用和发展,尚无定论。

大数据的从业者已经见证了高规模数据存储、处理能力和分析所需的特定技术的创建和普及。最受欢迎的系统包括 Apache Hadoop、Cloudera、Hortonworks 和 MapR。还有许多其他系统也在这一领域进行竞争。

对于基于统计和算法的数据处理与可视化,R、python 和 Matlab 是一些受欢迎的选择。

总结

我们从未像今天这样收集如此多样的数据,也没有像现在一样需要如此快速地处理这些数据。通过多种不同的机制收集的数据的种类和数量正在以指数级增长。这种增长要求我们采用新的策略和技术来捕获、存储、处理、分析和可视化数据。

数据科学是一个总括性术语,涵盖了在有用数据生命周期阶段使用的所有技术和工具。另一方面,大数据通常指的是需要专门且常常创新的技术和方法来高效“使用”这些数据的极大数据集。

这两个领域都会随着时间的推移变得更加重要。对这两个领域合格从业者的需求正在迅速增长,它们也成为了最热门、最有利可图的工作领域之一。

希望这篇文章对数据科学和大数据涉及的主要概念提供了相对简单的解释。掌握这些知识后,你应该能更好地理解最新的行业头条新闻,或者至少在讨论这两个话题时不至于完全陌生。

亚历克斯·卡斯特罗尼斯Why of AI的创始人兼首席执行官,并且是《AI for People and Business》的作者。他还担任了西北大学凯洛格商学院/麦考密克工程学院 MBAi 项目的兼职讲师。

原文。经许可转载。

相关:

  • 人工智能、深度学习和神经网络的解释

  • 机器学习:完整详细概述

  • 数据科学难题的解释

更多相关话题