原文:
www.kdnuggets.com/2022/04/complete-collection-data-repositories-part-1.html
作者提供的图片
编辑注:有关本系列两个部分所包含的完整数据库范围,请参见 数据仓库的完整收藏 – 第二部分。
1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
找到适合您业务的数据可能需要大量时间。虽然有多个数据共享平台提供各种数据集,但它们不能为特定的研究领域提供数据集。因此,我创建了一个数据仓库列表,可以帮助您找到任何数据集,而无需在互联网上搜索。单个数据仓库包含了某一特定研究领域的多个数据集。
数据库的集合分为两部分,共 20 个类别,涵盖各种科学领域。下面列出的大多数数据来源是免费的,但也有一些不是。我花了超过两天的时间来收集这些高质量且易于下载的数据库。我使用了 duckduckgo.com 搜索大多数资源,但大部分数据库来自于 Awesome Public Datasets 和 KDnuggets。
在第一部分中我们将涵盖:
-
农业
-
音频
-
生物学
-
气候
-
计算机视觉
-
经济学
-
教育
-
能源
-
财务
-
政府
在这一类别中,数据集大多与作物监测、遥感指数、谷物大小、地球化学、土壤和沉积物分析有关。数据集大多为表格形式,但你也可以找到用于作物监测和杂草检测的视觉数据。
音频库内容丰富,可用于自动语音识别、文本转语音、歌曲分类、情感检测、翻译以及仇恨言论检测。这对任何初学者或中型公司来说,都是开发最先进解决方案的金矿。
生物学类别主要包括细胞、癌细胞、基因组类型、基因和蛋白质结构的图像。你可以用它们生成新型病毒株或开发救命药物。大多数数据集用于研究目的,可以直接轻松下载。
气候数据存储库包含卫星图像、风速和温度的时间序列数据、全球天气和气候空间数据。你可以用它来预测天气、监测全球变暖的影响和检测自然灾害。
图片来源 Freepik
计算机视觉需求极高。公司正在开发各种解决方案,以改善当前流程或创造新服务,如仓库管理、自动驾驶汽车、人脸检测、生成艺术和机器人。
世界经济数据包括贸易统计、人类发展指数、食品供应的地理空间数据和宏观经济数据。你可以利用这些数据分析当前的贸易逆差并预测各国的发展。
在教育类别中,你可以找到学生评估、成绩单、大学表现、毕业率以及由个人学生、学校校长和家长填写的调查数据。
能源类别包含全球电力消费、各建筑物的智能电表数据以及发电站的能源生产率。我们可以利用这些数据策划可再生能源的实施、节省电力成本,并满足全球能源消耗的高需求。
图片来源 rawpixel.com
在这一部分,你可以找到关于债务、银行统计、GDP、汇率、消费者价格等的数据。金融是现代经济的支柱,为了创建一个稳定的经济体系,我们可以使用这些数据预测下一个金融危机、检测犯罪和预测股价。
你可以找到任何国家、州或甚至县的政府数据。许多政府官员通过与公众分享数据来促进公平和包容性。最突出的数据集来自美国、印度、加拿大、新西兰和联合国。这些数据涵盖了从犯罪到食品安全的各种信息。
在这篇博客中,我们涵盖了 10 个类别的数据仓库。我们还发现了数据集的类型及其使用案例。这些数据集是宝贵的金矿,你无法在 Kaggle 或任何普通网站上找到它们。大多数数据科学家要么在 Kaggle 上,要么在 Google 上搜索数据集,有时他们对所得到的数据感到满意。他们大部分时间都在清理和增强数据,而不是寻找更好的数据资源。这一切都将改变,因为我将利用我的数据仓库收藏来寻找我所需要的内容。
在第二部分,我们将探讨医疗保健、自然语言、神经科学、物理学、社交网络、体育、时间序列、交通、杂项和超级数据仓库。
Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个人工智能产品,以帮助那些挣扎于心理疾病的学生。