原文:
www.kdnuggets.com/2020/03/50-must-read-free-books-every-data-scientist-2020.html
评论
作者:Reashikaa Verma,ParallelDots
数据科学是一个跨学科领域,包含统计学、机器学习、贝叶斯等领域的方法和技术。它们都旨在从数据中生成特定的洞见。本文列出了一些优秀的数据科学书籍,涵盖了数据科学领域的广泛主题。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升您的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持您的组织 IT
1. 数据分析风格的元素
本书概述了数据科学。数据科学是一个非常大的伞形术语,这本书适合任何第一次接触该领域的人。阅读它可以理解数据科学是什么、一些常见任务和算法,以及一些一般性建议和技巧。
2. 数据科学基础
《数据科学基础》是对数据科学基础领域的论述,如线性代数、LDA、马尔可夫链、机器学习基础和统计学。该书的理想读者是希望提高其数学和理论掌握水平的初学者数据科学家。
3. 大规模数据集挖掘
基于斯坦福课程 CS246 和 CS35A,该书帮助用户学习如何在大数据集上进行数据挖掘。数据科学家常常需要在非常大的数据集上执行简单的数值任务(可以通过编写小程序来完成)。《MMDS》正是为此而作。此外,还有像降维和推荐系统这样的主题,帮助你了解线性代数和度量距离在现实世界中的应用。这是所有数据科学家必须阅读的书籍。
《Python 数据科学手册》教授了在 Python 中应用各种数据科学概念的知识。这本书可能是学习 Python 数据科学的最佳书籍(唯一的等效书籍是 Wes McKinney 的《Python 数据分析》),这本书在 Github 上也是免费的。所以你可以在不花费任何金钱的情况下学习。
5. 实践中的机器学习与大数据
6. 统计思维
《统计思维》教授读者统计学的基础,即读者将应用统计概念和分布于现实世界的数据集,并试图通过数学特征了解更多数据。如果你想用 Python 学习统计学,这本书可能是最佳的入门书籍之一。
7. 贝叶斯思维
贝叶斯统计与常规统计的工作方式有所不同。由于不确定性和将分布拟合到现实世界数据集的概念,使得贝叶斯方法更适合学习实际的数据集。道尼教授极其酷炫的“通过用 Python 编程学习”风格使这本书成为了那些刚开始接触贝叶斯方法者的美好读物。
8. 线性动态系统导论
本书讲解了在现实世界系统中应用的线性代数。这些应用涉及电路、信号处理、通信和控制系统。可以通过 这里 查阅博伊德教授前几年的课程笔记。
9. 凸优化
凸优化是许多机器学习(几乎所有深度学习算法)算法在后台使用的技术,以达到最佳参数集。
10. 元启发式算法基础
元启发式算法是一种快速学习的概率性方法,用于完成那些需要编写程序以暴力搜索的任务。对于可能较小的数据集,暴力搜索方法的实现需要的努力较少,但随着数据量的增加,它们会迅速耗尽。这本书可能是介绍元启发式方法(如遗传算法、爬山算法、共同进化和(基础)强化学习)的最佳入门书籍。
对数据科学中的 Python 工具的一个很好的概述。对于希望进入数据科学领域的高级 Python 开发者,或是从 R 转向 Python 的数据科学人士,这是一份非常好的文档。总体来说,如果你想了解 Python 在数据科学中能做什么,你应该阅读这篇文章。
12. 应用数据科学
Langmore 和 Krasner 的《应用数据科学》是一部非常实用的书籍,旨在教授数据科学。从使用 Git、基础 Python 教学开始,书中继续建立各种在数据科学领域中频繁使用的算法的基础。
13. 强盗算法书籍
随着数据的不断积累,决策不再仅仅依赖直觉,而是依赖收集到的数据。从电子商务网站上购买按钮的正确颜色到药物测试和金融投资组合决策,强盗算法无处不在。这是一本非常好的书,可以让你熟悉“强盗算法”!
14. 注释算法
一本教你用 Python 编写多种数值算法的书。如果你想了解数学程序是如何实现的,或者希望通过有趣的问题陈述来学习 Python,这本书是一个很好的资源。
15. 计算机时代的统计推断
这是 Efron 和传奇人物 Hastie 的一本书,探讨了如何利用现代计算能力进行统计推断(包括频率学派和贝叶斯学派),而不是大多数其他书籍所采用的笔纸方法。这是任何有意在现实生活中使用统计学的读者(无论是初学者还是有经验的)必须阅读的书籍。
16. 因果推断书籍
“相关性不等于因果性”是数据科学家常用的一个短语。但如何分辨这两者呢?这本书通过描述因果推断技术为数据科学家提供了答案。阅读这本书需要有良好的概率基础,不适合完全的初学者。
17. 计算最优传输
最优传输是将一个分布集分配到另一个分布集的数学。这可能是数据科学中为数不多的获得多个菲尔兹奖(数学最高荣誉)的领域之一。数学概念被广泛应用于许多机器学习和深度学习算法中,用作距离度量和分配问题求解。
这本书旨在教授计算机科学和机器学习所需的各种数学领域。相当数学化,是那些希望从数学重的领域进入数据科学的人的好资源。
19. 数据挖掘与分析
数据挖掘,正如你可能在之前提到的更著名的 MMDS 书中看到的,是在大型数据集上有效进行计算的一种方法。这些计算可以通过蛮力方法完成,可能在小数据集上效果很好,但在大型数据集上可能需要很长时间运行。一本很好的数据挖掘入门和参考书。
20. 计算与推理思维
探讨了数据科学的各个方面,包括 Python 编程、因果关系、表格、可视化和基本统计。来自 UC Berkeley 的基础课程,是初学者的好资源。
21. 数据科学的数学基础
正如书名所示,本书给出了数据科学概念如凸优化和维度约简的数学理论及其解释。如果你喜欢数学或特别想了解这些概念背后的数学,这本书值得推荐。
22. 智能人的信息论
信息论是数据科学中的四大数学理论之一,其他三种是线性代数、凸优化和统计学。这是一个很好的教程来理解该理论。好在这个教程适合初学者。
我最喜欢的线性代数书籍之一。在我列出的许多书中,它适合初学者,并且有很强的应用感,让读者不会在大量数学概念中迷失。
24. 线性代数 – 赫弗伦
很多人认为这是继吉尔伯特·斯特朗的线性代数书之后最好的初学者线性代数资源。应用性也很强,(SAGE 中的编程练习,本质上是 Python),但更适合初学者而非从业者。
25. 线性代数 – 作为抽象数学的介绍
这本书让我想起了我大学时的线性代数书(那本书受到了许多学习工程的学生的喜爱)。当数学过多而应用稍少时,我会有些迷失,但很多人会享受这些书的优雅。
26. 线性代数与优化基础
这本书将线性代数与优化算法结合起来。再次说明,适合喜欢这种风格的数学导向书籍。
27. 线性代数讲义 – Lerner
我觉得这本书非常好,它就像展示了多个已解决的问题来帮助你学习。不像早期的书籍那样严谨,更注重通过展示来学习。对那些长时间未接触线性代数的人来说,是一个很好的复习资料。
28. 随机线性代数讲义
并不是每个人都需要阅读这本书,因为它涉及概率算法来解决线性代数问题。如果你处理大型矩阵和向量,这些简单算法可能无法奏效。
29. 通过外积学习线性代数
一种不同的看待线性代数的方式。如果你觉得线性代数很有趣,应该尝试用这种新方式来可视化问题。
30. 线性代数 – Cherney 等
另一本免费的大学级线性代数书籍。适合初学者。如果你想练习,它还附有作业题。
31. 深度学习所需的矩阵微积分
正如其名,这个教程帮助你理解深度学习所需的矩阵微积分。
32. 优化:导论
在工程领域的问题中,优化参数是必需的。虽然凸优化在许多深度学习算法中使用,了解线性规划、单纯形等其他算法可以拓宽视野。
如果你打算从事数据科学工作,你需要学习科学计算的 Python 堆栈。可能这是学习 Numpy、Scipy、Scikit-Learn、Scikit-Image 和所有你需要的库的最佳常见教程。
34. Pandas 综合教程
这个巨大的教程由 Pandas 开发团队制作,用于学习和理解这个库。如果你在数据科学领域工作,Pandas 是必须学习的库,没有逃避的余地。
卡尔曼滤波器和其他贝叶斯滤波器在处理带有时间噪声的数据时非常有用,这些数据可以拟合到某个具有待推导参数的模型中。这些模型的双重功能是推导参数以及建模噪声。尽管最常见的例子是位置数据,但类似的滤波器也能很好地用于预测。(也可以在 Github找到)
36. 数据科学的统计推断
我们在此之前已经看过多本统计推断的书籍,但这本书特别针对数据科学家编写。如果你是一名数据科学家,想快速掌握统计推断,这就是你的书。
37. 机器学习数学
一本详细讲解数学的书,以帮助理解大多数机器学习算法。适合初学者。
38. 理论的可视化
一本通过使用互动可视化使学习概率变得简单的书。
39. 统计学基础
一本介绍统计学学习的书。没有学过统计学的初学者应该从这里开始。
40. 开放统计
一本结合书籍和视频讲座的资源,介绍统计学。
41. 从基础视角看高级数据分析
一本介绍数据科学不同概念的书。这包括因果模型、回归模型、因子模型等。示例程序使用 R 语言。
42. 快速数据、智能且可扩展
解释如何优化数据库以进行快速查询的书。讲述了现实世界中的各种可能模型。
43. 多臂赌博机简介
多臂赌博机是一种在不确定性下逐步做出决策的算法。这本书是关于多臂赌博机的入门著作。
44. 量化经济学讲座
关于定量经济学的讲座,以及用你喜欢的编程语言:Python 或 Julia 的代码。
45. 使用 Julia 的统计学
统计学家学习 Julia 或(较少见的情况)Julia 程序员学习统计学?试试这本书。
46. 信息论、推断与学习算法
信息论和推断通常被分别处理,但已故的 MacKay 教授的书尝试同时处理这两个主题。
47. 决策制定和风险管理的科学改进
一本关于概率决策制定的非技术性教程。
这实际上不是一本线性代数的书,而是几种线性代数的有趣应用汇编成的书。
49. 遗传算法教程
遗传算法是所有数据科学家在某个时候都需要使用的工具。这个教程帮助初学者理解遗传算法是如何工作的。
50. 使用 Julia 进行运筹学计算
如果你在处理排队或其他运筹学问题,Julia 可能是你会非常喜欢的编程语言。程序像 Python 一样易于阅读,运行速度极快。
如果你是一名有志成为数据科学家的新手,并且认为自己具备从事该领域工作的能力,请将你的简历发送给我们,以获得成为ParallelDots数据科学团队成员的机会。
原始版本。经许可转载。
相关:
-
机器学习和数据科学的 10 本免费必读书籍
-
机器学习和数据科学的另外 10 本免费必读书籍
-
机器学习和数据科学的另外 10 本免费必读书籍