Skip to content

Latest commit

 

History

History
237 lines (119 loc) · 10.7 KB

complete-collection-data-repositories-part-1.md

File metadata and controls

237 lines (119 loc) · 10.7 KB

数据库的完整收藏 – 第一部分

原文:www.kdnuggets.com/2022/04/complete-collection-data-repositories-part-1.html

数据仓库的完整收藏 - 第一部分

作者提供的图片

编辑注:有关本系列两个部分所包含的完整数据库范围,请参见 数据仓库的完整收藏 – 第二部分


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求


找到适合您业务的数据可能需要大量时间。虽然有多个数据共享平台提供各种数据集,但它们不能为特定的研究领域提供数据集。因此,我创建了一个数据仓库列表,可以帮助您找到任何数据集,而无需在互联网上搜索。单个数据仓库包含了某一特定研究领域的多个数据集。

数据库的集合分为两部分,共 20 个类别,涵盖各种科学领域。下面列出的大多数数据来源是免费的,但也有一些不是。我花了超过两天的时间来收集这些高质量且易于下载的数据库。我使用了 duckduckgo.com 搜索大多数资源,但大部分数据库来自于 Awesome Public Datasets 和 KDnuggets。

在第一部分中我们将涵盖:

  1. 农业

  2. 音频

  3. 生物学

  4. 气候

  5. 计算机视觉

  6. 经济学

  7. 教育

  8. 能源

  9. 财务

  10. 政府

农业

在这一类别中,数据集大多与作物监测、遥感指数、谷物大小、地球化学、土壤和沉积物分析有关。数据集大多为表格形式,但你也可以找到用于作物监测和杂草检测的视觉数据。

音频

音频库内容丰富,可用于自动语音识别、文本转语音、歌曲分类、情感检测、翻译以及仇恨言论检测。这对任何初学者或中型公司来说,都是开发最先进解决方案的金矿。

生物学

生物学类别主要包括细胞、癌细胞、基因组类型、基因和蛋白质结构的图像。你可以用它们生成新型病毒株或开发救命药物。大多数数据集用于研究目的,可以直接轻松下载。

气候

气候数据存储库包含卫星图像、风速和温度的时间序列数据、全球天气和气候空间数据。你可以用它来预测天气、监测全球变暖的影响和检测自然灾害。

数据存储库的完整集合 - 第一部分

图片来源 Freepik

计算机视觉

计算机视觉需求极高。公司正在开发各种解决方案,以改善当前流程或创造新服务,如仓库管理、自动驾驶汽车、人脸检测、生成艺术和机器人。

经济学

世界经济数据包括贸易统计、人类发展指数、食品供应的地理空间数据和宏观经济数据。你可以利用这些数据分析当前的贸易逆差并预测各国的发展。

教育

在教育类别中,你可以找到学生评估、成绩单、大学表现、毕业率以及由个人学生、学校校长和家长填写的调查数据。

能源

能源类别包含全球电力消费、各建筑物的智能电表数据以及发电站的能源生产率。我们可以利用这些数据策划可再生能源的实施、节省电力成本,并满足全球能源消耗的高需求。

数据存储库完整集合 - 第一部分

图片来源 rawpixel.com

金融

在这一部分,你可以找到关于债务、银行统计、GDP、汇率、消费者价格等的数据。金融是现代经济的支柱,为了创建一个稳定的经济体系,我们可以使用这些数据预测下一个金融危机、检测犯罪和预测股价。

政府

你可以找到任何国家、州或甚至县的政府数据。许多政府官员通过与公众分享数据来促进公平和包容性。最突出的数据集来自美国、印度、加拿大、新西兰和联合国。这些数据涵盖了从犯罪到食品安全的各种信息。

结论

在这篇博客中,我们涵盖了 10 个类别的数据仓库。我们还发现了数据集的类型及其使用案例。这些数据集是宝贵的金矿,你无法在 Kaggle 或任何普通网站上找到它们。大多数数据科学家要么在 Kaggle 上,要么在 Google 上搜索数据集,有时他们对所得到的数据感到满意。他们大部分时间都在清理和增强数据,而不是寻找更好的数据资源。这一切都将改变,因为我将利用我的数据仓库收藏来寻找我所需要的内容。

在第二部分,我们将探讨医疗保健、自然语言、神经科学、物理学、社交网络、体育、时间序列、交通、杂项和超级数据仓库。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个人工智能产品,以帮助那些挣扎于心理疾病的学生。

更多相关内容