Skip to content

Latest commit

 

History

History
117 lines (59 loc) · 9.21 KB

4-myths-big-data-deep-data.md

File metadata and controls

117 lines (59 loc) · 9.21 KB

《大数据的 4 个误区及深度数据的 4 种改进方式》

原文:www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html

c 评论

作者:斯蒂芬·史密斯Eckerson Group

对大数据的炒作正在减少。云计算、Hadoop 及其变种已解决了这个问题。但许多人仍在花费大量金钱建立更大的基础设施来处理、存储和管理这些庞大的数据库。对‘大’的盲目追求正在产生一些可观的且可避免的基础设施和人力资源成本。

现在是时候将讨论从‘大数据’转向‘深度数据’了。我们不再需要收集所有可能的数据来实现‘大数据’,而是需要更有思想和审慎。我们需要让一些数据落地,追求多样性而非数量,追求质量而非量。这将带来许多长期的好处。

大数据的误区

为了理解从‘大’到‘深’的转变,我们先来看一下我们对大数据的一些错误观念。以下是一些大误区:

  1. 所有数据都能并且应该被捕获和存储。

  2. 更多数据总是能帮助构建更准确的预测模型。

  3. 更多数据的存储成本几乎为零。

  4. 更多数据的计算成本几乎为零。

这里是一些现实情况:

  1. 物联网和网络流量的数据仍然超过了我们捕捉全部数据的能力。部分数据在采集时不得不被舍弃。我们需要聪明一点,基于价值对数据进行优先排序。

  2. 相同的数据示例重复一千次并不会提高预测模型的准确性。

  3. 存储更多数据的成本不仅仅是亚马逊网络服务向你收取的每 TB 的费用。还包括寻找和管理多个数据源的额外复杂性,以及你员工在移动和使用这些数据时的‘虚拟重量’。这些成本通常高于存储和计算费用。

  4. AI 算法对计算资源的需求很快会超出即使是弹性云基础设施的承载能力。计算资源是线性增长的,而计算需求如果没有得到专业管理,可能会超线性甚至指数级增长。

相信这些误区的问题在于,你会以那些在纸面上看起来不错或长期有效的方式来设计信息系统,但这些方式在短期内过于笨重,难以实用。

大数据的四个问题

盲目相信‘更多更好’的数据观念会带来以下四个问题:

  • 相同的数据不会有帮助。 在为 AI 构建机器学习模型时,训练样本的多样性至关重要。原因在于模型试图确定概念边界。例如,如果你的模型试图通过年龄和职业定义“退休工人”的概念,那么重复出现的 32 岁注册会计师对模型没有多大帮助,因为他们都还未退休。更有帮助的是获取年龄 65 岁时的概念边界样本,并观察退休如何与职业相关联。

  • 嘈杂的数据可能会伤害模型。 如果新数据中存在错误或不准确,它只会模糊 AI 试图学习的两个概念之间的界限。在这种情况下,更多的数据不会有所帮助,反而可能降低你现有模型的准确性。

  • 大数据会拖慢一切。 在一太字节的数据上构建模型可能需要比在一吉字节的数据上构建模型多一千倍的时间。或者可能需要多一万倍,具体取决于学习算法。数据科学完全是关于快速实验的。最好是灵活且不完美。快速失败,前进失败。

  • 大数据可实施的模型。 任何预测模型的最终目标都是创建一个可以部署到业务中的高精度模型。有时使用数据湖中较为隐蔽的数据可能会带来更高的准确性,但这些数据可能在实际部署时不可靠。最好是拥有一个较少准确但运行迅速且可以被业务使用的模型。

提升的四个方面

有几件事可以帮助你对抗大数据的“黑暗面”,并朝着深度数据思维模式迈进:

  • 理解准确性/执行的权衡。 数据科学家过于常见的假设是更准确的模型就是目标。基于准确性和部署速度,明确项目的 ROI 预期。

  • 使用随机样本构建每个模型。 如果你拥有大数据,就没有理由使用所有数据。如果你有一个好的随机抽样函数,那么你可以通过小样本准确预测用整个数据库构建的模型的准确性。先用小样本快速工作,然后用整个数据库构建最终模型。

  • 丢弃一些数据。 如果你被来自物联网设备和其他来源的流数据压垮,可以聪明地丢弃一些数据。也许可以丢弃大量数据。你无法购买足够的磁盘来存储所有数据,这会在你数据科学生产线的后期阶段阻碍所有工作。

  • 寻找更多的数据源。 最近 AI 的许多突破并非来自于更大的数据集,而是来自于机器学习算法能够接触到以前无法获得的数据。例如,现在常见的大型文本、图像、视频和音频数据集在二十年前并不存在。要不断寻找这些新的数据机会。

四个改进的方面

如果你关注深层数据而不仅仅是大数据,你将享受许多好处。以下是一些关键好处:

  • 一切将变得更快。 使用更小的数据集,你的数据移动、实验、模型训练和评分将会更快。

  • 减少存储和计算需求。 关注深层数据意味着你将更智能地有效使用较小的磁盘和计算资源。这直接转化为降低基础设施成本。把节省下来的钱用来聘请更多的数据科学家和 AI 专家吧!

  • 减少 IT 压力和让数据科学家更开心。 拥有深厚的数据文化,你的 IT 团队将不再频繁为数据科学团队跑腿,或不得不终止那些占用大量云资源的无序作业。同样,当数据科学家可以将更多时间投入到构建和测试模型上,而不是在数据搬运或等待长时间训练完成时,他们会更快乐。

  • 更困难的问题可以解决。构建 AI 模型并不是只有像巫师一样的研究人员才能执行的神奇体验。它更多的是关于后勤而不是魔法。这类似于一个艺术老师的故事,他告诉一半的学生,他们的成绩将基于他们创作的艺术品数量,而另一半的学生则根据他们最好的作品的质量来评分。不出所料,数量多的学生创作了最多的艺术品。令人震惊的是,他们还创作出了最高质量的作品。数量有时会带来质量。在我们的案例中,在相同资源约束下尝试更多模型可能意味着更好的最佳模型。

大数据及其支持的技术突破极大地推动了许多公司在决策过程中变得数据驱动。随着 AI 的兴起以及我们能够充分利用这些强大的资源,我们现在需要对数据需求更加精准。建立对深层数据的理解文化而不仅仅是大数据文化,正是现在所需的。

简历斯蒂芬·史密斯 是数据科学、预测分析及其在教育、制药、医疗、通信和金融行业应用领域的受人尊敬的专家。

资源:

相关:


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


更多相关内容