原文:
www.kdnuggets.com/2023/04/10-websites-get-amazing-data-data-science-projects.html
作者提供的图片
“有人真的会关心花萼长度吗?”几天前,我的朋友在喝咖啡时向我抱怨。她指的是 R 语言中内置的iris
数据集,这个数据集早在 1936 年就首次出现了。“为什么大学教授总是用糟糕、无聊、毫无意义的数据来教我们数据科学,而外面有这么多很棒的数据适合数据科学项目呢?”
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织的 IT 工作
她说得对。当你的数据对你来说无聊或毫无意义时,确实很难激励自己学习数据科学,或者进行数据科学项目。我知道在找到一些吸引我的有趣数据之前,我也曾很难激励自己学习数据科学。
在这篇文章中,我将详细介绍 10 个出色的网站,你可以从中获取一些非常棒的数据用于数据科学项目。目的是展示各种可能吸引你的数据。最终,这些网站应该能帮助你找到感兴趣的数据,完成一个酷炫的数据科学项目,并用它来获得一份工作。
如果你在这篇文章中看到一个网站,那是因为它包含的数据是:
-
免费提供。你无需为此付费。
-
面向社区的。这不仅仅是一个文件;还会有一些评论和解释。
-
很酷。这是某人会关心的东西。也许是你!
-
相对干净。你将有机会练习数据科学的有趣部分——分析、可视化、共享等。
-
语言无关。你可以用 Python、R、SQL 或任何你喜欢的语言来挖掘这些数据。
让我们深入探讨一下找到你真正关心并希望用数据科学进行探索的最佳网站。
Google 数据集搜索 | 范围广泛,质量参差不齐 |
---|---|
Kaggle | 更有限,但有大量背景和社区支持 |
KDNuggets | 专门针对 AI、机器学习、数据科学 |
政府网站 | 种类繁多,学习资源 |
Pudding.cool | 流行文化,论文 |
538 | 体育,政治,干净的数据 |
Tidy Tuesdays | 杂乱数据,优秀社区 |
GitHub | 大量可搜索的数据,有评论,质量不一 |
Buzzfeed | 流行文化,论文,严谨的科学 |
Awesome Public Datasets | 种类繁多,仅数据集,无评论 |
我有点作弊,因为这其实不是一个数据集网站,而是一个数据集的搜索引擎。但它太棒了,不得不包括在内。
Google 的 数据集搜索 就像 Google,但用于数据集。你输入查询,Google 就会返回所有相关的数据显示。
例如,搜索“猫”会带来超过一百个数据集,包括一个 数据集 含有超过 9,000 张猫的图片。
来源: Google 数据集搜索
我喜欢这个网站的原因:
-
它非常多才多艺。你几乎肯定会找到你感兴趣的东西。
-
它即时可用。这个网站包含了使用过这个数据集的其他论文,因此你可以看到其他人已经用这些数据做了什么有趣的事情。
-
你可以切换到仅包含免费数据集的选项。
-
它为你提取了上下文,所以你可以得到一些关于数据集的解释以及为什么要收集它的原因。
这是一个很好的起点。
Kaggle 数据集 也是一个搜索引擎,但它更有限也更集中。
这比较有限,因为它仅包含人们在 Kaggle 上发布的数据集。但它更有针对性,因为这些数据集不仅仅是 Google 抓取的随机数据集。Kaggle 是数据科学竞赛的家园,因此它收集的数据集与数据科学极为相关。
这使你能够根据你的特定兴趣进行筛选。例如,如果我用“计算机视觉”过滤器搜索“猫”,我可以找到那个相同的猫数据集。
来源: Kaggle 数据集
我喜欢这个网站的原因:
-
社区方面非常强大。点击那个猫数据集会显示 其他六个人 提出关于数据集的问题——并得到答案。
-
有很多示例项目。你还可以查看 其他人构建 或围绕这些数据进行编码的内容。
-
你也可以反过来做——查看他们的 竞赛 并看看是否有你感兴趣的内容,然后使用附带的数据集。
这可能会让你感到惊讶,但 KDNuggets 策划了一个 很棒的数据集 。这些数据集专门用于数据科学、机器学习、人工智能和分析,因此它们
这些网站中许多并不是 KDNuggets 独有的,但这是一个值得浏览的好列表。值得注意的是,当你注册成为 KDNuggets 的电子邮件订阅者时,你还可以访问 World Data AI,它包含 35 亿个数据集。
来源: KDnuggets 数据集
我喜欢这个网站的原因:
-
针对数据科学的数据。这些数据集中的许多是为了其他目的而整理的,但它们都在这里,特别是因为它们对人工智能、机器学习和数据科学很有用。
-
每个数据集的简要描述。只是一些背景信息,以帮助你决定它是否适合你。
我可以很容易地将这个获取数据集的网站列表扩展到大约一百万个,只需逐一列出我喜欢用来获取数据的政府网站。我不会这样做。相反,我会在这里提供一个小列表:
各国政府不断收集数据以进行研究,许多政府会将这些数据在线发布。
来源: 美国人口普查局
我喜欢这些网站的原因:
-
数据用于研究,所以通常很干净且组织良好。
-
数据有实际的使用案例。有人为了一个真实的、与政府相关的原因收集了这些数据。
-
通常这些数据非常新鲜。
-
数据背后常常有一些有趣的故事。
-
许多政府已经投入资源来展示如何访问或使用数据,例如 人口普查局。
如果你喜欢数据中加入一些流行文化的元素,可以查看 Pudding.cool。这个网站探讨了各种话题,如 重复的流行歌词、女性口袋,以及 生活大爆炸 如何被中国政府 审查。
这更像是一个数字杂志,撰写关于文化的长篇文章,同时展示大量数据。我把它包括在这里,因为他们讲述了很棒的故事,并分享他们的数据。
来源:The Pudding
我喜欢这个网站的原因:
-
超棒、有趣的数据。
-
分享数据和脚本。
-
许多你在现实生活中可能关心的事情。
另一个以论文为驱动的流行文化网站,提供自由获取的数据供你挖掘。他们更多关注体育和政治。虽然数据驱动性较少,但我将其列入这个名单,因为它仍然策划和分享数据集。
我喜欢这个网站的原因:
-
智能的故事,配以数据支持,你可以深入研究。
-
数据以干净的 CSV 格式呈现。
-
数据源高度可靠。
现在,现实情况是数据通常并不整洁。Tidy Tuesdays 并不完全是一个数据集网站,而是一个每周活动和社区,强调使用数据科学探索不整洁的数据。
每周都有新的数据集发布。参与者被鼓励在 GitHub 和 Twitter 上分享他们的清理技术和可视化成果。
我喜欢这个网站的原因:
-
社区非常棒。每周你都会学到一些新东西。
-
非常方便。无需费劲去寻找数据集。每周都有新的数据发布。
-
具有挑战性的、不整洁的数据。你在现实生活中获得的数据很少会像列表中的其他数据那样经过整理。Tidy Tuesdays 帮助你学习如何处理混乱的数据。
GitHub 是大量数据的家园。你可以轻松搜索、筛选和下载数据进行自己的尝试。然而,数据质量差异很大。因为任何人都可以上传数据,它的状态可能并不总是很好。
尽管如此,我觉得这些好处弥补了这些缺点。
我喜欢这个网站的原因:
-
你可以按语言过滤,例如 Python、Javascript 或其他。
-
数据量非常庞大。
-
通常数据会附带一些评论或代码供你查看。
Buzzfeed 不仅仅是通过让你制作沙拉来评论人类状况的测验。尽管这一点可能不那么为人所知,但 Buzzfeed 也做了很多优质数据新闻。
一切都是开源的。
我喜欢这个网站的原因:
-
有趣的数据,经过预处理,并附有形式良好的文章评论。
-
更加复杂的主题。重点是政治和健康等更复杂的主题,但还有很多其他内容。
我将以一个相当自解释的标题结束这份列表:极好的公开数据集。这个仓库在 GitHub 上,包含(主要是)免费的数据集供你探索。它们来自在线数据集、用户建议和研究论文。
我喜欢这个网站的原因:
-
你可以加入一个Slack 群组!
-
主题种类繁多。农业、金融、博物馆。你一定能找到让你感兴趣的内容。
-
精心策划。这些数据集质量很高。
深入挖掘,你不仅会发现可以让你入门的数据,还会找到社区、灵感和你可以用来学习和成长的数据科学代码。
有如此多的数据可供使用,你不应感到将就。总是寻找那些激发你灵感或让你兴奋的数据。希望这份列表能给你一些起点。
Nate Rosidi 是一位数据科学家和产品战略专家。他还担任分析课程的兼职教授,并且是StrataScratch的创始人,该平台帮助数据科学家通过顶级公司的真实面试问题来为面试做准备。可以在Twitter: StrataScratch或LinkedIn上与他联系。