在过去的几个月里,我们查看了多个顶级 Github 仓库集合,例如:
-
Github 上前 10 个机器学习项目
-
Github 上的前 10 个深度学习项目
-
Github 上前 10 个数据可视化项目
-
Github 上前 10 个数据科学资源
-
Github 上前 10 个 IPython Notebook 教程(适用于数据科学和机器学习)
1. Google 网络安全证书 - 快速进入网络安全职业的快车道。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你的组织的 IT
本文将有所不同,因为我们将重点关注 Github 提供的顶级开放数据集仓库。本文的灵感来源于 Github 开放数据展示,虽然这个展示不错,但规模并不大。理想情况下,我想列出 Github 上的顶级开放数据集;然而,这有点复杂,因为搜索“开放数据”或其任何变体都会在一个专门用于分享开源项目及其数据的网站上遇到困难。
我决定选择这个展示中的那些没有明确注明过时的资源,并添加 3 个额外的、数据集数量最多的仓库,通过简单搜索找到的最高星级仓库,对它们进行排名,并在此展示。我们在 KDnuggets 发现数据集是许多读者最渴望的 数据科学难题的一部分,希望这批新的数据集(至少从我们的角度来看是新的)对一些读者有所帮助。
我们目前正在进行最新的年度 KDnuggets 分析软件调查,因此去年具体的百分比可能会有所变化,但我们知道,在过去 12 个月里,73%的数据科学家使用了开源工具。虽然这个数字反映的是软件,而不是数据,但很容易推测,开源数据在数据科学及相关数据导向学科中被广泛依赖,用于研究、实践和生产,原因众多。
所以这些就是截至撰写时星标数最高的开源数据集仓库。
星标:14137,Forks:1573
由Xiaming (Sammy) Chen 提供,这似乎是 Github 上公认的开源数据集集合的领头羊。这个经过整理的列表按生物学、体育、博物馆和自然语言等主题进行组织,并且包括了数百个数据集。大多数是免费的,但列表顶部有免责声明表明有些数据集不是免费的。Xiaming 还指出了另外两个带有awesome标签的仓库列表,包含更多的数据集;然而,由于这些列表包含各种其他大数据/机器学习/数据科学的链接,尽管它们的星标数很高,但不会被包含在下面的列表中。可以自行探索这些列表……显而易见。
星标:529,Forks:510
这是OpenAddresses.io的官方仓库,一个免费的全球地址收集项目。为什么要收集地址?
街道地址数据是关键基础设施。街道名称、门牌号和邮政编码,与地理坐标结合时,是将数字世界与实体地点连接起来的枢纽。正因为它们的连接作用,免费的开放地址是公民和商业创新的火箭燃料。
星标:417,Forks:187
这个仓库的描述总结如下:
美国国会成员,1789 年至今,YAML 格式,以及委员会、总统和副总统。
星标:300,Forks:88
这是一个关于我们太阳系外所有已知发现的行星的目录。该数据库通常会在新发现后的 24 小时内更新,这意味着它几乎是最新的;考虑到该仓库上次更新是在 20 天前,这在这方面是令人鼓舞的。README 还指向了这个仓库,如果你对数据的简单 CSV 格式感兴趣,可以查看。
5. CitySDK
星数:274,Forks 数:92
CitySDK 被描述为一个“[u]ser-friendly [J]avascript SDK for US Census Bureau data”,还包括若干示例,详细说明了如何将数据与其他开放数据集集成。它自称是一个“工具箱”供公民黑客使用,具有经纬度和邮政编码转换功能,以及模块化架构,使得与其他数据服务的集成变得简单。使用 API 创建你自己的自定义数据集。
6. openFDA
星数:236,Forks 数:53
openFDA 是 FDA 的一个项目,旨在通过 API、原始数据、使用示例和文档向研究人员和开发者提供 FDA 公共数据集。数据不适用于临床用途,任何数据结果的具体有效性都不能保证。尽管有这些免责声明,但毫无疑问,数据对于对该领域感兴趣的人来说是很好的实践。
7. 食品检查评估
星数:100,Forks 数:44
如果“芝加哥食品检查评估”这个名字还没有让你明白,那么你可以期待这个仓库的内容:
这个仓库包含生成对芝加哥食品机构关键违规行为预测的代码。它还包含对这些预测效果的评估结果。
8. GSA 数据
星数:92,Forks 数:40
这包含由总务管理局发布的各种数据,该机构负责管理联邦机构的基本运作(办公室、供应等)。具体来说,它包含了超过 5000 个**.gov**域名及其数据。
9. 美国国会选区
星数:82,Forks 数:21
来自仓库的 README:
历史及当前的美国国会选区作为 GeoJSON,版本化存储在 Git 中
10. CERN 开放数据门户
星数:79,Forks 数:34
这是CERN 开放数据门户的源代码,描述为“一个访问通过 CERN 研究产生的数据的不断增长的入口”。
相关:
-
GitHub 上的精彩公共数据集
-
调查推荐系统的 9 个必备数据集
-
5 个你不能再忽视的机器学习项目