原文:
www.kdnuggets.com/2018/04/7-books-mathematical-foundations-data-science.html
大多数人学习数据科学时侧重于编程。然而,要真正精通数据科学(和机器学习),你不能忽视数据科学背后的数学基础。在这篇文章中,我展示了七本我在学习数据科学数学基础时喜欢的书籍。‘喜欢’可能不是最合适的词,因为这项工作很艰难!
那么,为什么你应该努力学习数据科学的数学基础呢?
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT
以下是一些激励我的原因:
AI 正在迅速变化。Geoffrey Hinton 已经认为我们应该重新思考反向传播。理解数学将帮助你更好地理解 AI 的演变。它将帮助你区别于那些从表面层次接触 AI 的人。这也将帮助你更好地看到 AI 的知识产权(IP)潜力。最后,理解数据科学背后的数学也可能使你获得更高端的 AI 和数据科学职位。
我有两个额外的动机来研究这些书籍。
-
首先,作为我在牛津大学教授物联网数据科学课程的一部分,以及我个人在 AI 应用方面的教学,我包括了基于数学的方法。
-
其次,我正在写一本书,旨在从数学角度简化 AI,以适合 14 至 18 岁的学生。要理解数据科学和 AI 的数学基础,你需要了解四个方面,即线性代数、概率论、多变量微积分和优化。大多数这些内容在高中(至少部分)会教授。因此,我试图将高中数学与 AI 和数据科学联系起来,重点是数学建模。欢迎对这种方法提出评论。
所以,这是带有我评论的书单:
1. 统计学习理论的本质
作者:弗拉基米尔·瓦普尼克
你不能创建一个关于数学书籍的列表而不包括伟大的俄罗斯数学家!所以,我列表中的第一个是统计学习理论的本质,作者是弗拉基米尔·瓦普尼克。在这个列表中的所有书籍中,瓦普尼克的书是最难找到的。我有一本较旧的印度版。弗拉基米尔·瓦普尼克是 SVM 的创造者。他的维基百科页面提供了更多关于他工作的内容。
作者:理查德·O·杜达
像瓦普尼克博士的书一样,杜达的书也是另一个时代的经典。首次出版于 1973 年,25 年后(2000 年)更新一次,之后没有再更新!但仍然是一个重要的资源。这本书采用了模式识别的方法,提供了广泛的算法覆盖。
3. 机器学习:算法视角(第二版)(Chapman & Hall/Crc 机器学习与模式识别)
作者:斯蒂芬·马斯兰
斯蒂芬·马斯兰的书现在已经是第二版了。马斯兰是我早期读过的书之一(我只有第一版)。两版都非常好。我相信第二版有更多的 Python 代码。和前两本书一样,这本书也对算法给予了很大关注。
作者:特雷弗·哈斯提,罗伯特·蒂布希拉尼,杰罗姆·弗里德曼
Hastie 是另一本经典之作。我拥有的版本印刷得很好,颜色丰富。这是另一本参考书。
作者:克里斯托弗·M·比 ishop
克里斯托弗·M·比 ishop 的《模式识别与机器学习(信息科学与统计)》也是一本深入且表现良好的参考书。
作者:彼得·弗拉奇
我喜欢彼得·弗拉赫(Peter Flach)的书,尽管一些亚马逊评论称其内容冗长,并指出缺乏代码。我尤其喜欢弗拉赫对算法的分组(逻辑模型、线性模型、概率模型)以及对主题的整体处理。
最后,我最推荐的书:
7. 深度学习
作者:古德费洛(Goodfellow)、本吉奥(Bengio)和考维尔(Corville)
如果有一本书你应该从头到尾读,那就是这本。这本书详细且现代,涵盖了你能想到的一切。
再推荐两本值得一读的书
-
《机器学习入门(第二版)(机器学习与模式识别)》作者:西蒙·罗杰斯(Simon Rogers)、马克·吉罗拉米(Mark Girolami) 这是我得到的第一本书(第一版)。我不建议初学者阅读,但它仍然是一本很好的书(特别是第二版)。
-
Kevin Murphy 的《机器学习:概率视角》 评价很高——但我个人还没有读过(因此未在列表中)。
如果你能推荐我遗漏的书,请告诉我。
总结评论:
-
除了可能的古德费洛-本吉奥的书,我不建议从头到尾阅读这些书。我更喜欢按需按主题阅读这些书,即作为参考书。我还喜欢不同作者的例子,比如杜达(Duda)的鱼分类;- 哈斯蒂(Hastie)的广告数据销售电视和广播;弗拉赫(Flach)用海洋动物的例子解释假设空间等等。
-
我发现这些书教会了我一种谦逊感,即我们知道的非常有限,而这个领域则非常广阔复杂。
-
这些书是永恒的。弗拉基米尔·瓦普尼克(Vladimir Vapnik)现在 81 岁了。杜达(Duda)的书首次出版于 1973 年。我预计 50 年后,业内仍会继续阅读这些书,就像经历了时间考验的老朋友。这是一个令人安慰的想法。它展示了基于数学的方法的持久性。
相关: