原文:
www.kdnuggets.com/2020/07/foundations-data-science-free-ebook.html
评论
我们本周再次推出了新的免费电子书。这次我们将讨论一本名为**数据科学基础**的书,作者是 Avrim Blum、John Hopcroft 和 Ravindran Kannan。这本书的名字本身就表明了它的重要性。幸运的是,它的内容也确实支持了这一点。
1. Google 网络安全证书 - 快速进入网络安全职业轨道。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你组织的 IT
首先,这本书的结构与典型的数据科学书籍不同。在我看来,它的章节及其进展并不符合标准当代数据科学教材的模式。从下面列出的目录可以看出,该书真正地涵盖了广泛的不同主题,而不是简单地将数据科学与机器学习等同起来,并按照这种方式进行进展:
-
引言
-
高维空间
-
最佳拟合子空间和奇异值分解(SVD)
-
随机游走和马尔可夫链
-
机器学习
-
大规模数据问题的算法:流处理、草图绘制和抽样
-
聚类
-
随机图
-
主题模型、非负矩阵分解、隐马尔可夫模型和图模型
-
其他主题
-
小波
-
附录
书中涵盖了各种高级主题,并且早期就包括了关于高维空间、子空间以及随机游走或马尔可夫链的章节,这增强了该书的概述风格。这也让我想起另一部你可能熟悉的数据科学经典书籍,大规模数据集挖掘。强调这本书侧重于“基础”,你不会在其中找到最新的神经网络架构。然而,如果你希望最终理解一些更复杂的数据科学问题解决方法的原因和原理,那么你会发现《数据科学基础》是很有用的。
矩阵分解、图论、核方法、聚类理论、流处理、梯度下降、数据采样;这些都是你在解决数据科学问题时将会大有裨益的概念,它们也是实现更复杂方法的基本构建块。如果没有梯度下降,你无法理解神经网络。如果没有图论,你不能分析社交媒体网络。如果你不能理解何时及为何从数据中采样,你构建的模型将毫无价值。
与我们最近介绍的其他一些书籍(例如统计学习的元素和理解机器学习)类似,这本书无所顾忌地理论化。书中没有代码,没有依赖的 Python 库,也没有含糊其辞。只有深入的解释,帮助你理解这些不同的主题,只要你愿意花时间阅读。
作者撰写此书的动机在书籍介绍的这一摘录中得到了体现:
虽然计算机科学的传统领域仍然非常重要,但未来的研究人员将越来越多地涉及使用计算机从大量数据中理解和提取可用信息,而不仅仅是如何在特定明确定义的问题上使计算机有用。考虑到这一点,我们编写了这本书,涵盖我们预计在未来 40 年内会有用的理论,就像对自动机理论、算法和相关主题的理解在过去 40 年中给予学生优势一样。一个主要的变化是对概率、统计和数值方法的重视增加。
在许多当代书籍中,数据科学被简化为一系列编程工具,只要掌握了这些工具,就可以完成数据科学任务。这些书籍似乎较少关注与代码脱离的基本概念和理论。这本书则是与这种趋势相反的好例子,它无疑会为你提供必要的理论知识,使你以扎实的基础迎接数据科学的职业生涯。
相关:
-
统计学习入门:免费电子书
-
理解机器学习:免费电子书
-
统计学习的元素:免费电子书