Skip to content

Latest commit

 

History

History
3317 lines (1660 loc) · 163 KB

awesome-list-datasets.md

File metadata and controls

3317 lines (1660 loc) · 163 KB

超棒的 100+ 类别的数据集列表

原文:www.kdnuggets.com/2021/05/awesome-list-datasets.html

评论

Etienne D. Noumen,高级软件工程师


我们的前三个课程推荐

1. Google 网络安全证书 - 快速开启网络安全职业之路。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你所在组织的 IT 部门


数据科学是一个跨学科领域,它使用科学方法、过程、算法和系统从结构化和非结构化数据中提取知识和洞察,并将这些知识和可操作的洞察应用于广泛的应用领域。

在本博客中,我们提供了流行的开源和公共数据集、数据可视化、数据分析资源和数据湖的链接。

目录

  1. 最新完整的 Netflix 电影数据集

  2. 通用爬虫

  3. 蛋白质价格数据集

  4. CPOST 数据集:四十年来的自杀攻击

  5. 信用卡数据集 – 消费者金融调查 (SCF) 综合提取数据 1989-2019 综合提取数据 1989-2019")

  6. 带注释的无人机图像用于小物体检测和跟踪数据集

  7. NOAA 高分辨率快速刷新 (HRRR) 模型 模型")

  8. AWS 上的开放数据注册表

  9. 教科书问答 (TQA)")

  10. 协调癌症数据集:基因组数据公共门户

  11. 癌症基因组图谱

  12. 治疗性应用研究以生成有效治疗方法 (TARGET)")

  13. 基因组聚合数据库 (gnomAD)")

  14. SQuAD (斯坦福问答数据集)")

  15. PubMed 糖尿病数据集

  16. 药物-靶标互动数据集

  17. 药物基因组数据集

  18. 胰腺癌类器官分析

  19. 非洲土壤信息服务 (AfSIS) 土壤化学 Soil Chemistry")

  20. E 环境中的情感状态数据集

  21. NatureServe Explorer 数据集

  22. 美国航班记录

  23. 全球航班数据

  24. 2019 年美国犯罪统计数据

  25. 雅虎问答数据集

  26. 美洲历史 1400-2021

  27. 波斯语词汇发音数据集

  28. 历史空气质量数据集

  29. Stack Exchange 数据集

  30. 精彩公共数据集

  31. 农业数据集

  32. 生物数据集

  33. 气候和天气数据集

  34. 复杂网络数据集

  35. 计算机网络数据集

  36. 网络安全数据集

  37. 数据挑战数据集

  38. 地球科学数据集

  39. 经济数据集

  40. 教育数据集

  41. 能源数据集

  42. 娱乐数据集

  43. 金融数据集

  44. 地理信息系统数据集

  45. 政府数据集

  46. 医疗数据集

  47. 图像处理数据集

  48. 机器学习数据集

  49. 博物馆数据集

  50. 自然语言数据集

  51. 神经科学数据集

  52. 物理数据集

  53. 前列腺癌数据集

  54. 心理学和认知数据集

  55. 公共领域数据集

  56. 搜索引擎数据集

  57. 社交网络数据集

  58. 社会科学数据集

  59. 软件数据集

  60. 体育数据集

  61. 时间序列数据集

  62. 交通数据集

  63. 电子竞技数据集

  64. 补充集合

  65. 分类公共数据集列表:Sindre Sorhus /awesome List

  66. 平台

  67. 编程语言

  68. 前端开发

  69. 后端开发

  70. 计算机科学

  71. 大数据

  72. 理论

  73. 书籍

  74. 编辑器

  75. 游戏

  76. 开发环境

  77. 娱乐

  78. 数据库

  79. 媒体

  80. 学习

  81. 安全

  82. 内容管理系统

  83. 硬件

  84. 商业

  85. 工作

  86. 网络

  87. 去中心化系统

  88. 高等教育

  89. 事件

  90. 测试

  91. 其他

  92. 相关

  93. 美国教育部 CRDC 数据集

  94. NASA 数据集:从细菌的空间前后测序数据

  95. 2015 年至 2021 年所有特朗普的推特侮辱记录 CSV 格式

  96. 数据是复数

  97. 全球恐怖主义数据库

  98. 海豚社交网络

  99. 20 万笑话的数据集

  100. 百万歌曲数据集

  101. 康奈尔大学的 eBird 数据集

  102. UFO 报告数据集

  103. CDC 的趋势药物数据

  104. 健康与退休研究:公众调查数据

这是一个庞大的列表,这里有100+个更多的类别

最新完整的 Netflix 电影数据集

从 4 个 API 创建。包含 11K+行和 30+属性的 Netflix 数据(评级、收入、演员、语言、可用性、电影预告片等等)

Kaggle 上的数据集

使用FlixGem.com探索这个数据集(这个数据集驱动了这个 web 应用)

Google Sheets 上的数据集

一个由超过 500 亿个网页组成的网络爬虫数据语料库。Common Crawl 语料库包含自 2008 年以来收集的 PB 级数据。它包含原始网页数据、提取的元数据和文本提取。

AWS CLI 访问(无需 AWS 账户)

aws s3 ls s3://commoncrawl/ --no-sign-request

s3://commoncrawl/crawl-data/CC-MAIN-2021-17 – 2021 年 4 月

蛋白质价格数据集

关于主要商品价格的数据每月更新,基于 IMF 的主要商品价格系统。

Excel 数据库

芝加哥大学安全与威胁项目展示了更新和扩展后的自杀攻击数据库(DSAT),该数据库现在链接到乌普萨拉冲突数据计划的武装冲突数据,并包括一个新的数据集,用于衡量与自杀攻击组织相关的武装组织之间的联盟和对立关系。在这里访问

你可以在这里以非常简单的方式进行大量汇总分析。

11 TB 无人机图像数据集附带小物体检测和跟踪的注释

下载和更多信息请访问这里

数据集许可证:CDLA-Sharing-1.0

访问数据集的辅助脚本:DATASET.md

数据集探索:Colab

HRRR 是 NOAA 的实时 3 公里分辨率、每小时更新、云解析、允许对流的气象模型,由 3 公里网格和 3 公里雷达同化初始化。雷达数据每 15 分钟同化到 HRRR 中,持续 1 小时,进一步增加了由 13 公里雷达增强的快速刷新每小时数据同化提供的细节。

本注册表旨在帮助人们发现和共享通过 AWS 资源提供的数据集。了解更多关于在 AWS 上共享数据的信息

查看该注册表中列出的数据集的所有使用示例

查看来自数字地球非洲Facebook 数据公益NASA 空间法案协议NIH STRIDESNOAA 大数据计划空间望远镜科学研究所亚马逊可持续数据计划的数据集。

1,076 节教科书课文,26,260 个问题,6229 张图片

文档:allenai.org/data/tqa

下载

GDC 数据门户是一个强大的数据驱动平台,允许癌症研究人员和生物信息学家搜索和下载癌症数据进行分析。

基因组数据公共门户

基因组数据公共门户

癌症基因组图谱(TCGA),是国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)之间的合作,旨在生成主要癌症类型和亚型中关键基因组变化的全面、多维度图谱。

AWS CLI 访问(无需 AWS 账户)

aws s3 ls s3://tcga-2-open/ --no-sign-request

临床应用研究以生成有效治疗(TARGET)计划采用全面的基因组方法来确定驱动儿童癌症的分子变化。该计划的目标是利用数据指导开发有效且毒性较小的治疗方案。TARGET 组织为一个疾病特定项目团队的协作网络。TARGET 项目提供全面的分子表征,以确定驱动儿童癌症起始和进展的遗传变化。数据集包含来自基因组数据公共数据库(GDC)的开放临床补充、样本补充、RNA-Seq 基因表达定量、miRNA-Seq 亚型表达定量、miRNA-Seq miRNA 表达定量数据以及来自 GDC 遗留档案的开放数据。点击这里访问

基因组聚合数据库(gnomAD)是由国际研究人员联盟开发的资源,汇总和协调来自各种大规模人类测序项目的外显子组和基因组数据。这里提供的总结数据为科学界提供便利,无使用限制。下载

斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由众包工作者在一组维基百科文章上提出问题,每个问题的答案都是来自相应阅读段落的文本片段或范围,或者问题可能没有答案。在这里访问

Pubmed 糖尿病数据集包含 19717 篇来自 PubMed 数据库的关于糖尿病的科学出版物,分类为三类之一。引用网络包含 44338 条链接。数据集中的每篇出版物由一个 TF/IDF 加权词向量描述,该词典由 500 个唯一单词组成。数据集中的 README 文件提供了更多细节。

下载链接

此数据集包含从 DrugBank、KEGG Drug、DCDB 和 Matador 收集的药物与靶标之间的互动。最初由Perlman 等收集。数据集包含 315 种药物、250 个靶标、1306 个药物-靶标互动、5 种药物-药物相似性和 3 种靶标-靶标相似性。药物-药物相似性包括基于化学的、基于配体的、基于表达的、基于副作用的和基于注释的相似性。靶标-靶标相似性包括基于序列的、基于蛋白质-蛋白质相互作用网络的和基于基因本体论的相似性。数据集的原始任务是基于网络中的不同相似性预测药物和靶标之间的新互动。下载链接

PharmGKB 数据和知识可供下载。通常在使用这些数据进行大规模项目之前,检查与其策展人联系 [email protected] 是至关重要的,以确保所提供的文件和数据被正确解释。PharmGKB 通常不需要成为这些分析的共同作者;他们只希望确保在投入大量资源之前对数据有正确的理解。

数据集包含开放的 RNA-Seq 基因表达定量数据以及受控的 WGS/WXS/RNA-Seq 对齐读取、WXS 注释体突变、WXS 原始体突变和 RNA-Seq 剪接位点定量。文档

AWS CLI 访问(无需 AWS 账户)

aws s3 ls s3://gdc-organoid-pancreatic-phs001611-2-open/ --no-sign-request

该数据集包含通过非洲土壤信息服务(AfSIS)项目收集的土壤红外光谱数据及配对的土壤性质参考测量,这些样本在 2009 年至 2018 年期间进行了地理参考。文档

AWS CLI 访问(无需 AWS 账户)

aws s3 ls s3://afsis/ --no-sign-request

DAiSEE 是第一个多标签视频分类数据集,包含 9068 个视频片段,捕捉自 112 位用户,用于识别用户的无聊、困惑、参与和挫折等情感状态。数据集包含四个标签级别,即非常低、低、高和非常高,每种情感状态都由人群标注,并与使用专家心理学家团队创建的黄金标准标注相关。 在这里下载

NatureServe Explorer 提供了超过 95,000 种植物和动物在美国和加拿大的保护状态、分类学、分布和生活历史信息,以及西半球超过 10,000 种植被群落和生态系统的信息。

通过 NatureServe Explorer 提供的数据代表了在 NatureServe 中央数据库中管理的数据。这些数据库是动态的,通过数百名自然遗产项目科学家和其他合作伙伴的输入不断增强和完善。NatureServe Explorer 从这些中央数据库中更新,以反映新的实地调查、最新的分类处理、其他科学出版物以及新的保护状态评估。在这里探索数据

航空公司准时表现及航班延误原因 – On_Time 数据。

该数据库包含由认证的美国航空承运人报告的计划和实际出发及到达时间、延误原因,这些承运人占国内计划客运收入的至少 1%。数据由运输统计局(BTS)航空信息办公室收集。

FlightAware.com 有数据,但你需要付费才能获得完整的数据集。

anyflights 包提供了一组函数,用于生成类似于nycflights13的航空旅行数据(和数据包!)。通过用户定义的年份和机场,anyflights函数将抓取以下数据:

  • flights: 指某年某月从特定机场起飞的所有航班

  • weather: 某年某月特定机场的每小时气象数据

  • airports: 机场名称、FAA 代码和位置

  • airlines: 两字母航空公司代码与名称的转换

  • planes: 关于flights中每架飞机的建造信息

航空公司准时统计与延误原因

美国交通部(DOT)的运输统计局(BTS)跟踪大型航空公司运营的国内航班的准时表现。关于准时、延误、取消和改道航班数量的汇总信息会出现在 DOT 的每月航空旅行消费者报告中,该报告在每月结束后约 30 天发布,并在该网站上发布汇总表。BTS 从 2003 年 6 月开始收集航班延误原因的详细信息。汇总统计数据和原始数据在航空旅行消费者报告发布时公开。在此访问

开放航班:截至 2017 年 1 月,OpenFlights 机场数据库包含超过 10,000个机场、火车站和渡轮码头,遍布全球

下载: airports.dat(仅机场,高质量)

下载: airports-extended.dat(机场、火车站和渡轮码头,包括用户贡献)

交通部

Flightera.net 似乎提供了大量免费的优质数据。它提供了深入的航班数据,并且似乎没有日期限制。不过,我无法评论数据的有效性。

flightradar24.com 拥有大量数据,包括历史数据,他们可能会愿意帮助你以良好的格式获取这些数据。

包含按种族和各州分开的美国逮捕数据集。在这里下载 Excel

Yahoo Answers 数据集

Yahoo 将于 2021 年关闭。这是来自 2015 年的 Yahoo Answers 数据集(300MB gzip),相当广泛,大约有 140 万行。这个数据集包含了最佳的问题答案,我指的是所有的答案,包括最荒谬糟糕的答案和最糟糕的问题。在这里下载。

另一个选项**在这里**:根据跟踪器,已完成 7700 万,还有 2000 万未完成(?),还有 4000 万待完成:

wiki.archiveteam.org/index.php/Yahoo!_Answers

来源:

os-connect.com/pop/p2an.asp

ourworldindata.org/

www.ggdc.net/maddison/oriindex.htm

www.globalfirepower.com/countries-comparison.asp

这是一个包含约 55K 个波斯词汇及其发音的数据集。每个词汇占一行,并通过制表符与其发音分开。

美国户外监测器收集的空气质量数据。这是一个 BigQuery 数据集。没有下载文件,但可以通过 Kernels 使用 BigQuery API 查询。AQS 数据库包含所有来自 AQS 的信息。它记录了 EPA 通过国家环境空气监测计划收集的每一个测量值,还包括 EPA 计算的相关汇总值(8 小时、每日、年度等)。AQS 数据库是每周制作一次的 AQS 副本,通过基于网络的应用程序向公众开放。数据集的预期用户是监管、学术和健康研究领域的空气质量数据分析师。它旨在为那些需要下载大量详细技术数据的人提供,而不提供任何互动分析工具。它作为几个机构互动工具的后端数据库,这些工具无法完全运作:AirData、AirCompare、The Remote Sensing Information Gateway、地图监测站点 KML 页面等。

Stack Exchange 数据集

data.stackexchange.com/

这个列表包含了高质量的以主题为中心的公共数据源。它们是从博客、回答和用户回应中收集和整理的。下面列出的多数数据集是免费的,但有些则不是。

生物学

平台

  • Node.js – 基于 Chrome 的 V8 JavaScript 引擎构建的异步非阻塞事件驱动 JavaScript 运行时。

    • 跨平台 – 在 Node.js 上编写跨平台代码。
  • 前端开发

  • iOS – 适用于苹果手机和平板的移动操作系统。

  • Android – 由 Google 开发的移动操作系统。

  • 物联网与混合应用

  • Electron – 使用 JavaScript/HTML/CSS 的跨平台原生桌面应用。

  • Cordova – 用于混合应用的 JavaScript API。

  • React Native – 用于编写 iOS 和 Android 原生渲染移动应用的 JavaScript 框架。

  • Xamarin – 移动应用程序开发集成开发环境(IDE)、测试和分发。

  • Linux

    • 容器

    • eBPF – 一个虚拟机,使您能够编写更高效和强大的 Linux 系统跟踪和监控代码。

    • 基于 Arch 的项目 – 基于 Arch Linux 的 Linux 发行版和项目。

  • macOS – 苹果 Mac 计算机的操作系统。

  • watchOS – 苹果手表的操作系统。

  • JVM

  • Salesforce

  • Amazon Web Services

  • Windows

  • IPFS – 点对点超媒体协议。

  • Fuse – 移动开发工具。

  • Heroku – 云平台即服务。

  • 树莓派 – 一种信用卡大小的计算机,旨在教授孩子们编程,但能做更多事情。

  • Qt – 跨平台图形用户界面应用程序框架。

  • WebExtensions – 跨浏览器扩展系统。

  • RubyMotion – 使用 Ruby 为 iOS、Android、macOS、tvOS 和 watchOS 编写跨平台原生应用。

  • 智能电视 – 为不同的电视平台创建应用。

  • GNOME – 适用于 Linux 的简洁且无干扰的桌面环境。

  • KDE – 一个致力于创建开放且用户友好的计算体验的自由软件社区。

  • .NET

    • Core

    • Roslyn – 用于 C# 和 VB.NET 语言的开源编译器和代码分析 API。

  • Amazon Alexa – 虚拟家庭助理。

  • DigitalOcean – 专为开发人员设计的云计算平台。

  • Flutter – Google 的移动 SDK,用于从一个用 Dart 编写的代码库构建原生 iOS 和 Android 应用。

  • Home Assistant – 开源家居自动化系统,优先考虑本地控制和隐私。

  • IBM 云 – 面向开发者和公司的云平台。

  • Firebase – 基于 Google Cloud Platform 的应用开发平台。

  • 机器人操作系统 2.0 – 一套帮助你构建机器人应用的软件库和工具。

  • Adafruit IO – 可视化和存储来自任何设备的数据。

  • Cloudflare – 为你的站点提供 CDN、DNS、DDoS 保护和安全性。

  • Google Actions – Google Assistant 的开发平台。

  • ESP – 低成本的微控制器,具备 WiFi 和广泛的物联网应用。

  • Deno – 一种安全的 JavaScript 和 TypeScript 运行时,使用 V8,构建于 Rust 上。

  • DOS – 一种用于 x86 个人计算机的操作系统,曾在 1980 年代和 1990 年代初期流行。

  • Nix – 用于 Linux 和其他 Unix 系统的包管理器,使包管理可靠且可重现。

编程语言

前端开发

后端开发

计算机科学

大数据

理论

书籍

编辑器

游戏

开发环境

娱乐

数据库

  • Database

  • MySQL

  • SQLAlchemy

  • InfluxDB

  • Neo4j

  • MongoDB – NoSQL 数据库。

  • RethinkDB

  • TinkerPop – 图计算框架。

  • PostgreSQL – 对象关系型数据库。

  • CouchDB – 面向文档的 NoSQL 数据库。

  • HBase – 分布式、可扩展的大数据存储。

  • NoSQL Guides – 使用非关系型、分布式、开源和水平可扩展数据库的帮助。

  • Contexture – 从不同的数据存储如 ElasticSearch 和 MongoDB 中抽象查询/过滤器和结果/聚合。

  • Database Tools – 使数据库操作更简便的工具。

  • Grakn – 逻辑数据库,用于组织大型复杂的数据网络作为一个知识体系。

媒体

学习

安全

内容管理系统

  • Umbraco

  • Refinery CMS – Ruby on Rails 的内容管理系统。

  • Wagtail – 以灵活性和用户体验为重点的 Django CMS。

  • Textpattern – 轻量级 PHP 基础的 CMS。

  • Drupal – 可扩展的 PHP 基础 CMS。

  • Craft CMS – 内容优先的 CMS。

  • Sitecore – .NET 数字营销平台,将 CMS 与管理多个网站的工具结合起来。

  • Silverstripe CMS – PHP MVC 框架,可作为经典或无头 CMS。

硬件

商业

工作

网络

去中心化系统

  • 比特币 – 为软件开发者提供的比特币服务和工具。

  • 瑞波 – 开源分布式结算网络。

  • 非金融区块链 – 非金融区块链应用。

  • Mastodon – 开源去中心化微博网络。

  • 以太坊 – 用于智能合约开发的分布式计算平台。

  • 区块链人工智能 – 面向人工智能和机器学习的区块链项目。

  • EOSIO – 支持工业规模应用的去中心化操作系统。

  • Corda – 面向商业的开源区块链平台。

  • Waves – 开源区块链平台和用于 Web 3.0 应用及去中心化解决方案的开发工具包。

  • Substrate – 用于用 Rust 编写可扩展、可升级区块链的框架。

高等教育

  • 计算神经科学 – 一门使用计算方法研究神经系统的跨学科科学。

  • 数字历史 – 计算机辅助的历史科学研究。

  • 科学写作 – 使用 Markdown、reStructuredText 和 Jupyter notebooks 进行无干扰的科学写作。

事件

测试

  • 测试 – 软件测试。

  • 视觉回归测试 – 确保更改未破坏功能或样式。

  • Selenium – 开源浏览器自动化框架和生态系统。

  • Appium – 应用程序测试自动化工具。

  • TAP – 测试任何协议。

  • JMeter – 负载测试和性能测量工具。

  • k6 – 开源、面向开发者的性能监控和负载测试解决方案。

  • Playwright – 一个 Node.js 库,用于通过单一 API 自动化 Chromium、Firefox 和 WebKit。

  • 质量保证路线图 – 如何开始并建立软件测试职业。

杂项

相关

美国教育部 CRDC 数据集

美国教育部有一个叫做 CRDC 的数据集,收集了所有美国公立学校的数据,包括人口统计、学术、财务和各种其他有趣的数据点。他们还有使用相同标识符的附属数据集——可以视作扩展包。每 2-3 年更新一次。点击这里访问.

NASA 数据集:细菌在被送入太空前后的测序数据

NASA 拥有一些细菌的测序数据,这些细菌在被送入太空前后被采样,用于观察由于缺乏重力、辐射等因素造成的基因差异。如果你想尝试一些生物数据科学,这非常有趣。点击这里访问

从 NYT 故事中提取:这里

数据是复数

Data is Plural 是由 Jeremy Singer-Vine 出版的一个非常好的通讯。数据集非常随机,但非常有趣。点击这里访问

全球恐怖主义数据库

大量来自美国及其他国家的恐怖事件列表。每个条目包含事件的日期和地点、动机、是否有人或财产损失、袭击规模、袭击类型等信息。点击这里访问.

恐怖袭击数据集:该数据集包含 1293 起恐怖袭击,每起袭击被分配一个 6 种标签中的一种,指示袭击类型。每次袭击通过一个 0/1 值的属性向量描述,该向量的条目表示特征的缺失/存在。共有 106 个不同的特征。数据集中的文件可用于创建两个不同的图表。数据集中的 README 文件提供了更多细节。下载链接

恐怖分子: 该数据集包含有关恐怖分子及其关系的信息。此数据集旨在进行分类实验,目的是分类恐怖分子之间的关系。数据集包含 851 个关系,每个关系由一个 0/1 值向量描述,其中每个条目表示一个特征的缺失/存在。共有 1224 个不同的特征。每个关系可以被分配一个或多个标签,最多可达四个标签,使得该数据集适用于多标签分类任务。README 文件提供了更多详细信息。下载链接

海豚社交网络

该网络数据集属于社交网络类别。瓶鼻海豚的社交网络。数据集包含所有链接的列表,其中一个链接代表海豚之间的频繁关联。点击这里访问

200,000 条笑话数据集

该数据库中大约有 208,000 条笑话,来自三个来源。

点击这里访问

百万首歌曲数据集

百万首歌曲数据集是一个免费提供的现代流行音乐轨迹的音频特征和元数据集合。

其目的如下:

  • 鼓励研究适用于商业规模的算法

  • 提供一个参考数据集以评估研究

  • 作为创建大型数据集的快捷替代方案(例如 Echo Nest 的)

  • 帮助新研究人员入门 MIR 领域

康奈尔大学的 eBird数据集

通过对全球鸟类的几十年观察,真正是利用公民科学的一种令人印象深刻的方式。点击这里访问

UFO 报告数据集

NUFORC 的地理定位和时间标准化的 UFO 报告,数据覆盖近一个世纪。超过 80,000 份报告。点击这里访问

CDC 的趋势药物数据

CDC 拥有一个名为 NAMCS/NHAMCS 的公共数据库,允许你跟踪药物数据。它还有很多其他的数据点,因此可以用于各种其他用途。点击这里访问。

健康与退休研究:公共调查数据

一份列出了公开可用的双年度、非年度和跨年度数据产品的清单。

示例: COVID-19 数据

年份 产品
2020 2020 HRS COVID-19 项目

原始内容。经许可转载。

相关:

更多相关内容