评论
由 Etienne D. Noumen,高级软件工程师。
1. Google 网络安全证书 - 快速开启网络安全职业之路。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你所在组织的 IT 部门
数据科学是一个跨学科领域,它使用科学方法、过程、算法和系统从结构化和非结构化数据中提取知识和洞察,并将这些知识和可操作的洞察应用于广泛的应用领域。
在本博客中,我们提供了流行的开源和公共数据集、数据可视化、数据分析资源和数据湖的链接。
-
最新完整的 Netflix 电影数据集
-
通用爬虫
-
蛋白质价格数据集
-
CPOST 数据集:四十年来的自杀攻击
-
信用卡数据集 – 消费者金融调查 (SCF) 综合提取数据 1989-2019 综合提取数据 1989-2019")
-
带注释的无人机图像用于小物体检测和跟踪数据集
-
NOAA 高分辨率快速刷新 (HRRR) 模型 模型")
-
AWS 上的开放数据注册表
-
教科书问答 (TQA)")
-
协调癌症数据集:基因组数据公共门户
-
癌症基因组图谱
-
治疗性应用研究以生成有效治疗方法 (TARGET)")
-
基因组聚合数据库 (gnomAD)")
-
SQuAD (斯坦福问答数据集)")
-
PubMed 糖尿病数据集
-
药物-靶标互动数据集
-
药物基因组数据集
-
胰腺癌类器官分析
-
非洲土壤信息服务 (AfSIS) 土壤化学 Soil Chemistry")
-
E 环境中的情感状态数据集
-
NatureServe Explorer 数据集
-
美国航班记录
-
全球航班数据
-
2019 年美国犯罪统计数据
-
雅虎问答数据集
-
美洲历史 1400-2021
-
波斯语词汇发音数据集
-
历史空气质量数据集
-
Stack Exchange 数据集
-
精彩公共数据集
-
农业数据集
-
生物数据集
-
气候和天气数据集
-
复杂网络数据集
-
计算机网络数据集
-
网络安全数据集
-
数据挑战数据集
-
地球科学数据集
-
经济数据集
-
教育数据集
-
能源数据集
-
娱乐数据集
-
金融数据集
-
地理信息系统数据集
-
政府数据集
-
医疗数据集
-
图像处理数据集
-
机器学习数据集
-
博物馆数据集
-
自然语言数据集
-
神经科学数据集
-
物理数据集
-
前列腺癌数据集
-
心理学和认知数据集
-
公共领域数据集
-
搜索引擎数据集
-
社交网络数据集
-
社会科学数据集
-
软件数据集
-
体育数据集
-
时间序列数据集
-
交通数据集
-
电子竞技数据集
-
补充集合
-
分类公共数据集列表:Sindre Sorhus /awesome List
-
平台
-
编程语言
-
前端开发
-
后端开发
-
计算机科学
-
大数据
-
理论
-
书籍
-
编辑器
-
游戏
-
开发环境
-
娱乐
-
数据库
-
媒体
-
学习
-
安全
-
内容管理系统
-
硬件
-
商业
-
工作
-
网络
-
去中心化系统
-
高等教育
-
事件
-
测试
-
其他
-
相关
-
美国教育部 CRDC 数据集
-
NASA 数据集:从细菌的空间前后测序数据
-
2015 年至 2021 年所有特朗普的推特侮辱记录 CSV 格式
-
数据是复数
-
全球恐怖主义数据库
-
海豚社交网络
-
20 万笑话的数据集
-
百万歌曲数据集
-
康奈尔大学的 eBird 数据集
-
UFO 报告数据集
-
CDC 的趋势药物数据
-
健康与退休研究:公众调查数据
这是一个庞大的列表,这里有100+个更多的类别
从 4 个 API 创建。包含 11K+行和 30+属性的 Netflix 数据(评级、收入、演员、语言、可用性、电影预告片等等)
使用FlixGem.com探索这个数据集(这个数据集驱动了这个 web 应用)
一个由超过 500 亿个网页组成的网络爬虫数据语料库。Common Crawl 语料库包含自 2008 年以来收集的 PB 级数据。它包含原始网页数据、提取的元数据和文本提取。
AWS CLI 访问(无需 AWS 账户)
aws s3 ls s3://commoncrawl/ --no-sign-request
s3://commoncrawl/crawl-data/CC-MAIN-2021-17 – 2021 年 4 月
关于主要商品价格的数据每月更新,基于 IMF 的主要商品价格系统。
芝加哥大学安全与威胁项目展示了更新和扩展后的自杀攻击数据库(DSAT),该数据库现在链接到乌普萨拉冲突数据计划的武装冲突数据,并包括一个新的数据集,用于衡量与自杀攻击组织相关的武装组织之间的联盟和对立关系。在这里访问
你可以在这里以非常简单的方式进行大量汇总分析。
11 TB 无人机图像数据集附带小物体检测和跟踪的注释
下载和更多信息请访问这里
数据集许可证:CDLA-Sharing-1.0
访问数据集的辅助脚本:DATASET.md
数据集探索:Colab
HRRR 是 NOAA 的实时 3 公里分辨率、每小时更新、云解析、允许对流的气象模型,由 3 公里网格和 3 公里雷达同化初始化。雷达数据每 15 分钟同化到 HRRR 中,持续 1 小时,进一步增加了由 13 公里雷达增强的快速刷新每小时数据同化提供的细节。
本注册表旨在帮助人们发现和共享通过 AWS 资源提供的数据集。了解更多关于在 AWS 上共享数据的信息。
查看来自数字地球非洲、Facebook 数据公益、NASA 空间法案协议、NIH STRIDES、NOAA 大数据计划、空间望远镜科学研究所和亚马逊可持续数据计划的数据集。
1,076 节教科书课文,26,260 个问题,6229 张图片
GDC 数据门户是一个强大的数据驱动平台,允许癌症研究人员和生物信息学家搜索和下载癌症数据进行分析。
基因组数据公共门户
癌症基因组图谱(TCGA),是国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)之间的合作,旨在生成主要癌症类型和亚型中关键基因组变化的全面、多维度图谱。
AWS CLI 访问(无需 AWS 账户)
aws s3 ls s3://tcga-2-open/ --no-sign-request
临床应用研究以生成有效治疗(TARGET)计划采用全面的基因组方法来确定驱动儿童癌症的分子变化。该计划的目标是利用数据指导开发有效且毒性较小的治疗方案。TARGET 组织为一个疾病特定项目团队的协作网络。TARGET 项目提供全面的分子表征,以确定驱动儿童癌症起始和进展的遗传变化。数据集包含来自基因组数据公共数据库(GDC)的开放临床补充、样本补充、RNA-Seq 基因表达定量、miRNA-Seq 亚型表达定量、miRNA-Seq miRNA 表达定量数据以及来自 GDC 遗留档案的开放数据。点击这里访问。
基因组聚合数据库(gnomAD)是由国际研究人员联盟开发的资源,汇总和协调来自各种大规模人类测序项目的外显子组和基因组数据。这里提供的总结数据为科学界提供便利,无使用限制。下载
斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由众包工作者在一组维基百科文章上提出问题,每个问题的答案都是来自相应阅读段落的文本片段或范围,或者问题可能没有答案。在这里访问
Pubmed 糖尿病数据集包含 19717 篇来自 PubMed 数据库的关于糖尿病的科学出版物,分类为三类之一。引用网络包含 44338 条链接。数据集中的每篇出版物由一个 TF/IDF 加权词向量描述,该词典由 500 个唯一单词组成。数据集中的 README 文件提供了更多细节。
此数据集包含从 DrugBank、KEGG Drug、DCDB 和 Matador 收集的药物与靶标之间的互动。最初由Perlman 等收集。数据集包含 315 种药物、250 个靶标、1306 个药物-靶标互动、5 种药物-药物相似性和 3 种靶标-靶标相似性。药物-药物相似性包括基于化学的、基于配体的、基于表达的、基于副作用的和基于注释的相似性。靶标-靶标相似性包括基于序列的、基于蛋白质-蛋白质相互作用网络的和基于基因本体论的相似性。数据集的原始任务是基于网络中的不同相似性预测药物和靶标之间的新互动。下载链接
PharmGKB 数据和知识可供下载。通常在使用这些数据进行大规模项目之前,检查与其策展人联系 [email protected] 是至关重要的,以确保所提供的文件和数据被正确解释。PharmGKB 通常不需要成为这些分析的共同作者;他们只希望确保在投入大量资源之前对数据有正确的理解。
数据集包含开放的 RNA-Seq 基因表达定量数据以及受控的 WGS/WXS/RNA-Seq 对齐读取、WXS 注释体突变、WXS 原始体突变和 RNA-Seq 剪接位点定量。文档
AWS CLI 访问(无需 AWS 账户)
aws s3 ls s3://gdc-organoid-pancreatic-phs001611-2-open/ --no-sign-request
该数据集包含通过非洲土壤信息服务(AfSIS)项目收集的土壤红外光谱数据及配对的土壤性质参考测量,这些样本在 2009 年至 2018 年期间进行了地理参考。文档
AWS CLI 访问(无需 AWS 账户)
aws s3 ls s3://afsis/ --no-sign-request
DAiSEE 是第一个多标签视频分类数据集,包含 9068 个视频片段,捕捉自 112 位用户,用于识别用户的无聊、困惑、参与和挫折等情感状态。数据集包含四个标签级别,即非常低、低、高和非常高,每种情感状态都由人群标注,并与使用专家心理学家团队创建的黄金标准标注相关。 在这里下载
NatureServe Explorer 提供了超过 95,000 种植物和动物在美国和加拿大的保护状态、分类学、分布和生活历史信息,以及西半球超过 10,000 种植被群落和生态系统的信息。
通过 NatureServe Explorer 提供的数据代表了在 NatureServe 中央数据库中管理的数据。这些数据库是动态的,通过数百名自然遗产项目科学家和其他合作伙伴的输入不断增强和完善。NatureServe Explorer 从这些中央数据库中更新,以反映新的实地调查、最新的分类处理、其他科学出版物以及新的保护状态评估。在这里探索数据
航空公司准时表现及航班延误原因 – On_Time 数据。
该数据库包含由认证的美国航空承运人报告的计划和实际出发及到达时间、延误原因,这些承运人占国内计划客运收入的至少 1%。数据由运输统计局(BTS)航空信息办公室收集。
FlightAware.com 有数据,但你需要付费才能获得完整的数据集。
anyflights
包提供了一组函数,用于生成类似于nycflights13
的航空旅行数据(和数据包!)。通过用户定义的年份和机场,anyflights
函数将抓取以下数据:
-
flights
: 指某年某月从特定机场起飞的所有航班 -
weather
: 某年某月特定机场的每小时气象数据 -
airports
: 机场名称、FAA 代码和位置 -
airlines
: 两字母航空公司代码与名称的转换 -
planes
: 关于flights
中每架飞机的建造信息
美国交通部(DOT)的运输统计局(BTS)跟踪大型航空公司运营的国内航班的准时表现。关于准时、延误、取消和改道航班数量的汇总信息会出现在 DOT 的每月航空旅行消费者报告中,该报告在每月结束后约 30 天发布,并在该网站上发布汇总表。BTS 从 2003 年 6 月开始收集航班延误原因的详细信息。汇总统计数据和原始数据在航空旅行消费者报告发布时公开。在此访问
开放航班:截至 2017 年 1 月,OpenFlights 机场数据库包含超过 10,000个机场、火车站和渡轮码头,遍布全球
下载: airports.dat(仅机场,高质量)
下载: airports-extended.dat(机场、火车站和渡轮码头,包括用户贡献)
Flightera.net 似乎提供了大量免费的优质数据。它提供了深入的航班数据,并且似乎没有日期限制。不过,我无法评论数据的有效性。
flightradar24.com 拥有大量数据,包括历史数据,他们可能会愿意帮助你以良好的格式获取这些数据。
包含按种族和各州分开的美国逮捕数据集。在这里下载 Excel
Yahoo 将于 2021 年关闭。这是来自 2015 年的 Yahoo Answers 数据集(300MB gzip),相当广泛,大约有 140 万行。这个数据集包含了最佳的问题答案,我指的是所有的答案,包括最荒谬糟糕的答案和最糟糕的问题。在这里下载。
另一个选项**在这里**:根据跟踪器,已完成 7700 万,还有 2000 万未完成(?),还有 4000 万待完成:
wiki.archiveteam.org/index.php/Yahoo!_Answers
来源:
www.ggdc.net/maddison/oriindex.htm
www.globalfirepower.com/countries-comparison.asp
这是一个包含约 55K 个波斯词汇及其发音的数据集。每个词汇占一行,并通过制表符与其发音分开。
美国户外监测器收集的空气质量数据。这是一个 BigQuery 数据集。没有下载文件,但可以通过 Kernels 使用 BigQuery API 查询。AQS 数据库包含所有来自 AQS 的信息。它记录了 EPA 通过国家环境空气监测计划收集的每一个测量值,还包括 EPA 计算的相关汇总值(8 小时、每日、年度等)。AQS 数据库是每周制作一次的 AQS 副本,通过基于网络的应用程序向公众开放。数据集的预期用户是监管、学术和健康研究领域的空气质量数据分析师。它旨在为那些需要下载大量详细技术数据的人提供,而不提供任何互动分析工具。它作为几个机构互动工具的后端数据库,这些工具无法完全运作:AirData、AirCompare、The Remote Sensing Information Gateway、地图监测站点 KML 页面等。
这个列表包含了高质量的以主题为中心的公共数据源。它们是从博客、回答和用户回应中收集和整理的。下面列出的多数数据集是免费的,但有些则不是。
-
加拿大安大略省多伦多 [修复]
-
Infochimps [修正]
-
KDNuggets 数据集合
-
一个不断增长的公共数据集集合: CoolDatasets.
-
DataWrangling: 网上可用的一些数据集
-
Inside-r: 在互联网上寻找数据
-
OpenDataMonitor: 欧洲可用开放数据资源概览
-
Quora: 我可以在哪里找到公开的大型数据集?
-
RS.io: 100+ 有趣的统计数据集
-
StaTrek: 利用开放数据理解城市生活
-
CV Papers: 网络上的计算机视觉数据集
-
CVonline: 图像数据库
-
Node.js – 基于 Chrome 的 V8 JavaScript 引擎构建的异步非阻塞事件驱动 JavaScript 运行时。
- 跨平台 – 在 Node.js 上编写跨平台代码。
-
iOS – 适用于苹果手机和平板的移动操作系统。
-
Android – 由 Google 开发的移动操作系统。
-
Electron – 使用 JavaScript/HTML/CSS 的跨平台原生桌面应用。
-
Cordova – 用于混合应用的 JavaScript API。
-
React Native – 用于编写 iOS 和 Android 原生渲染移动应用的 JavaScript 框架。
-
Xamarin – 移动应用程序开发集成开发环境(IDE)、测试和分发。
-
-
eBPF – 一个虚拟机,使您能够编写更高效和强大的 Linux 系统跟踪和监控代码。
-
基于 Arch 的项目 – 基于 Arch Linux 的 Linux 发行版和项目。
-
macOS – 苹果 Mac 计算机的操作系统。
-
watchOS – 苹果手表的操作系统。
-
IPFS – 点对点超媒体协议。
-
Fuse – 移动开发工具。
-
Heroku – 云平台即服务。
-
树莓派 – 一种信用卡大小的计算机,旨在教授孩子们编程,但能做更多事情。
-
Qt – 跨平台图形用户界面应用程序框架。
-
WebExtensions – 跨浏览器扩展系统。
-
RubyMotion – 使用 Ruby 为 iOS、Android、macOS、tvOS 和 watchOS 编写跨平台原生应用。
-
智能电视 – 为不同的电视平台创建应用。
-
GNOME – 适用于 Linux 的简洁且无干扰的桌面环境。
-
KDE – 一个致力于创建开放且用户友好的计算体验的自由软件社区。
-
Amazon Alexa – 虚拟家庭助理。
-
DigitalOcean – 专为开发人员设计的云计算平台。
-
Flutter – Google 的移动 SDK,用于从一个用 Dart 编写的代码库构建原生 iOS 和 Android 应用。
-
Home Assistant – 开源家居自动化系统,优先考虑本地控制和隐私。
-
IBM 云 – 面向开发者和公司的云平台。
-
Firebase – 基于 Google Cloud Platform 的应用开发平台。
-
机器人操作系统 2.0 – 一套帮助你构建机器人应用的软件库和工具。
-
Adafruit IO – 可视化和存储来自任何设备的数据。
-
Cloudflare – 为你的站点提供 CDN、DNS、DDoS 保护和安全性。
-
Google Actions – Google Assistant 的开发平台。
-
ESP – 低成本的微控制器,具备 WiFi 和广泛的物联网应用。
-
Deno – 一种安全的 JavaScript 和 TypeScript 运行时,使用 V8,构建于 Rust 上。
-
DOS – 一种用于 x86 个人计算机的操作系统,曾在 1980 年代和 1990 年代初期流行。
-
Nix – 用于 Linux 和其他 Unix 系统的包管理器,使包管理可靠且可重现。
-
Swift – 苹果的编译编程语言,安全、现代、对程序员友好且快速。
-
Python – 旨在提高可读性的通用编程语言。
-
Asyncio – Python 3 的异步 I/O。
-
科学音频 – 音频/音乐方面的科学研究。
-
CircuitPython – 为微控制器提供的 Python 版本。
-
数据科学 – 数据分析和机器学习。
-
类型检查 – Python 的可选静态类型检查。
-
MicroPython – 为微控制器提供的精简高效的 Python 3 实现。
-
-
- Scala Native – 基于 LLVM 的 Scala 提前优化编译器。
-
Julia – 高级动态编程语言,旨在满足高性能数值分析和计算科学的需求。
-
C/C++ – 通用语言,偏向系统编程和嵌入式、资源受限的软件。
-
R – 用于统计计算和图形的函数式编程语言和环境。
-
Common Lisp – 强大的动态多范式语言,便于迭代和互动开发。
-
Java – 设计为灵活的流行安全面向对象语言,实现“一次编写,到处运行”。
-
PHP – 服务器端脚本语言。
- Composer – 包管理器。
-
Frege – 用于 JVM 的 Haskell。
-
CMake – 构建、测试和打包软件。
-
ActionScript 3 – 面向 Adobe AIR 的面向对象语言。
-
Eta – JVM 的函数式编程语言。
-
Idris – 一种通用的纯函数式编程语言,具有受 Haskell 和 ML 影响的依赖类型。
-
Ada/SPARK – 现代编程语言,适用于需要可靠性和效率的大型、长期运行的应用程序。
-
Q# – 用于表达量子算法的领域特定编程语言。
-
Imba – 受 Ruby 和 Python 启发的编程语言,编译为高效的 JavaScript。
-
Vala – 设计用来充分利用 GLib 和 GNOME 生态系统的编程语言,同时保留 C 代码的速度。
-
Coq – 用于编程和规范的形式化语言和环境,支持交互式机器检查证明的开发。
-
V – 简单、快速、安全的编译语言,用于开发可维护的软件。
-
CSS – 用于指定 HTML 元素在屏幕上显示方式的样式表语言。
-
React – 应用框架。
-
Relay – 用于构建数据驱动的 React 应用的框架。
-
React Hooks – 一项新特性,让你在不编写类的情况下使用状态和其他 React 特性。
-
-
Polymer – 用于开发 Web 组件的 JavaScript 库。
-
Angular – 应用框架。
-
Backbone – 应用框架。
-
HTML5 – 用于网站和 Web 应用的标记语言。
-
SVG – 基于 XML 的矢量图像格式。
-
KnockoutJS – JavaScript 库。
-
Dojo Toolkit – JavaScript 工具包。
-
Ember – 应用框架。
-
D3 – 用于制作动态、交互式数据可视化的库。
-
jQuery – 易于使用的 JavaScript 库,用于 DOM 操作。
-
Cycle.js – 函数式和响应式 JavaScript 框架。
-
Vue.js – 应用框架。
-
Marionette.js – 应用框架。
-
Aurelia – 应用框架。
-
PostCSS – CSS 工具。
-
Draft.js – React 的富文本编辑器框架。
-
choo – 应用框架。
-
Redux – JavaScript 应用的状态容器。
-
webpack – 模块打包器。
-
Browserify – 模块打包器。
-
Sass – CSS 预处理器。
-
Ant Design – 企业级 UI 设计语言。
-
Less – CSS 预处理器。
-
WebGL – 用于渲染 3D 图形的 JavaScript API。
-
Preact – 应用框架。
-
Next.js – 用于服务器渲染的 React 应用的框架。
-
lit-html – 用于 JavaScript 的 HTML 模板库。
-
JAMstack – 基于客户端 JavaScript、可重用的 API 和预构建标记的现代 Web 开发架构。
-
WordPress-Gatsby – 以 WordPress 为后端,Gatsby 为前端的 Web 开发技术栈。
-
Mobile Web Development – 创建出色的移动 Web 体验。
-
Storybook – UI 组件的开发环境。
-
Blazor – 使用 C#/Razor 和 HTML 的 .NET 网络框架,通过 WebAssembly 在浏览器中运行。
-
PageSpeed 指标 – 帮助理解页面速度和用户体验的指标。
-
Tailwind CSS – 以实用程序为先的 CSS 框架,用于快速 UI 开发。
-
Seed – 用于创建运行在 WebAssembly 中的网页应用的 Rust 框架。
-
网页性能预算 – 确保网站性能指标的技术。
-
网页动画 – 浏览器中的动画,使用 JavaScript、CSS、SVG 等。
-
Yew – 受 Elm 和 React 启发的 Rust 框架,用于创建多线程前端网页应用与 WebAssembly。
-
Material-UI – 用于更快更容易网页开发的 Material Design React 组件。
-
构建网页应用的模块 – 独立功能模块,可集成到网页应用中。
-
Svelte – 应用框架。
-
设计系统 – 可重用组件的集合,由规则指导,确保一致性和速度。
-
Flask – Python 框架。
-
Vagrant – 自动化虚拟机环境。
-
Pyramid – Python 框架。
-
CakePHP – PHP 框架。
-
Symfony – PHP 框架。
-
Laravel – PHP 框架。
-
TALL Stack – 全栈开发解决方案,包含 Laravel 社区构建的库。
-
Rails – Ruby 的网页应用框架。
- Gems – 软件包。
-
Phalcon – PHP 框架。
-
nginx – 网络服务器。
-
Dropwizard – Java 框架。
-
Kubernetes – 自动化 Linux 容器操作的开源平台。
-
Lumen – PHP 微框架。
-
Serverless Framework – 无服务器计算和无服务器架构。
-
Apache Wicket – Java web 应用框架。
-
Vert.x – 用于在 JVM 上构建响应式应用的工具包。
-
Terraform – 用于构建、修改和版本化基础设施的工具。
-
Vapor – Swift 中的服务器端开发。
-
Dash – Python web 应用框架。
-
FastAPI – Python web 应用框架。
-
CDK – 用于在代码中定义云基础设施的开源软件开发框架。
-
IAM – 用户帐户、身份验证和授权。
-
Chalice – 用于在 AWS Lambda 上开发无服务器应用的 Python 框架。
-
-
ML with Ruby – 使用 Ruby 学习、实施和应用机器学习。
-
Core ML Models – Apple 机器学习框架的模型。
-
H3O – 用 Java 编写的开源分布式机器学习平台,提供 R、Python 和 Scala 的 API。
-
Software Engineering for Machine Learning – 从实验到生产级机器学习。
-
AI in Finance – 使用机器学习解决金融中的问题。
-
JAX – 自动微分和 XLA 编译结合用于高性能机器学习研究。
-
Speech and Natural Language Processing
-
Question Answering – 用机器进行自然语言问答的科学。
-
自然语言生成 – 用于数据到文本、对话代理和叙事生成应用的文本生成。
-
- 论文 – 非密码学家使用密码学的理论基础。
-
深度学习 – 神经网络。
-
TensorFlow – 机器智能库。
-
TensorFlow.js – 用于训练和部署模型的 WebGL 加速机器学习 JavaScript 库。
-
TensorFlow Lite – 优化 TensorFlow 模型以便在设备上进行机器学习的框架。
-
论文 – 被引用最多的深度学习论文。
-
-
经验软件工程 – 基于证据的软件系统研究。
-
信息检索 – 学习开发你自己的搜索引擎。
-
量子计算 – 利用量子力学和量子计算机上的量子比特进行计算。
-
Hadoop – 用于分布式存储和处理超大数据集的框架。
-
Apache Spark – 大规模数据处理的统一引擎。
-
Qlik – 用于数据可视化、分析和报告应用的商业智能平台。
-
Splunk – 用于实时搜索、监控和分析结构化和非结构化机器生成大数据的平台。
-
Atom – 开源且可黑客化的文本编辑器。
-
Visual Studio Code – 跨平台开源文本编辑器。
-
Godot – 游戏引擎。
-
Unity – 游戏引擎。
-
LÖVE – 游戏引擎。
-
PICO-8 – 幻想控制台。
-
Construct 2 – 游戏引擎。
-
Gideros – 游戏引擎。
-
Minecraft – 沙盒视频游戏。
-
游戏数据集 – 用于游戏中人工智能的材料和数据集。
-
Haxe 游戏开发 – 一种高层次的强类型编程语言,用于生成跨平台的本地代码。
-
libGDX – Java 游戏框架。
-
PlayCanvas – 游戏引擎。
-
游戏重制 – 积极维护的开源游戏重制版。
-
Flame – 用于 Flutter 的游戏引擎。
-
Discord 社区 – 与朋友和社区聊天。
-
CHIP-8 – 70 年代的虚拟计算机游戏机。
-
编程游戏 – 通过制作游戏来学习编程语言。
-
快速查看插件 – 适用于 macOS。
-
Fish – 用户友好的 shell。
-
GitHub – Git 仓库的托管服务。
-
Git 插件 – 增强
git
CLI。 -
Git 钩子 – 用于
git
工作流中的任务自动化脚本。 -
Hyper – 基于 Web 技术的跨平台终端应用。
-
PowerShell – 跨平台面向对象的 shell。
-
Alfred 工作流 – 适用于 macOS 的生产力应用。
-
GitHub Actions – 创建任务来自动化工作流,并与 GitHub 上的其他人共享。
-
MongoDB – NoSQL 数据库。
-
TinkerPop – 图计算框架。
-
PostgreSQL – 对象关系型数据库。
-
CouchDB – 面向文档的 NoSQL 数据库。
-
HBase – 分布式、可扩展的大数据存储。
-
NoSQL Guides – 使用非关系型、分布式、开源和水平可扩展数据库的帮助。
-
Contexture – 从不同的数据存储如 ElasticSearch 和 MongoDB 中抽象查询/过滤器和结果/聚合。
-
Database Tools – 使数据库操作更简便的工具。
-
Grakn – 逻辑数据库,用于组织大型复杂的数据网络作为一个知识体系。
-
Codeface – 文本编辑器字体。
-
GIF – 以动画图像著称的图像格式。
-
Pixel Art – 像素级数字艺术。
-
FFmpeg – 跨平台的音视频录制、转换和流媒体解决方案。
-
Icons – 可下载的 SVG/PNG/字体图标项目。
-
Audiovisual – 专业环境中的灯光、音频和视频。
-
CLI Workshoppers – 互动教程。
-
教育游戏 – 在游戏中学习。
-
CSS 学习 – 主要关于 CSS——语言和模块。
-
产品管理 – 学习如何成为更好的产品经理。
-
路线图 – 为提高你的知识和技能提供清晰的路线图。
-
YouTuber – 观看 YouTuber 教授技术的视频教程。
-
CTF – Capture The Flag(夺旗赛)。
-
蜜罐 – 诱捕攻击者尝试入侵组织信息系统的陷阱。
-
网络安全 – 网络应用和服务的安全。
-
开锁 – 不使用钥匙而通过操控锁的组件来解锁的艺术。
-
网络安全蓝队 – 识别信息技术系统安全漏洞的团队。
-
模糊测试 – 一种自动化的软件测试技术,涉及输入伪随机生成的数据。
-
GDPR – 欧盟内所有个人的数据保护和隐私条例。
-
Refinery CMS – Ruby on Rails 的内容管理系统。
-
Wagtail – 以灵活性和用户体验为重点的 Django CMS。
-
Textpattern – 轻量级 PHP 基础的 CMS。
-
Drupal – 可扩展的 PHP 基础 CMS。
-
Craft CMS – 内容优先的 CMS。
-
Sitecore – .NET 数字营销平台,将 CMS 与管理多个网站的工具结合起来。
-
Silverstripe CMS – PHP MVC 框架,可作为经典或无头 CMS。
-
电子学 – 面向电子工程师和爱好者。
-
电吉他规格 – 自制电吉他的检查清单。
-
绘图仪 – 计算机控制的绘图机和其他视觉艺术机器人。
-
机器人工具 – 面向专业机器人开发的免费和开源工具。
-
LIDAR – 通过激光光照射目标来测量距离的传感器。
-
OKR 方法论 – 目标设定与沟通最佳实践。
-
领导与管理 – 在科技公司/环境中领导和管理。
-
独立 – 独立开发者业务。
-
交易工具 – Hacker News 上公司使用的工具。
-
清洁技术 – 利用技术应对气候变化。
-
Wardley 图 – 提供高情境感知,帮助改进战略规划和决策。
-
社会企业 – 建立一个主要关注社会影响的组织,该组织至少部分自筹资金。
-
工程团队管理 – 如何从软件开发过渡到工程管理。
-
开发者优先产品 – 针对开发者作为用户的产品。
-
比特币 – 为软件开发者提供的比特币服务和工具。
-
瑞波 – 开源分布式结算网络。
-
非金融区块链 – 非金融区块链应用。
-
Mastodon – 开源去中心化微博网络。
-
以太坊 – 用于智能合约开发的分布式计算平台。
-
区块链人工智能 – 面向人工智能和机器学习的区块链项目。
-
EOSIO – 支持工业规模应用的去中心化操作系统。
-
Corda – 面向商业的开源区块链平台。
-
Waves – 开源区块链平台和用于 Web 3.0 应用及去中心化解决方案的开发工具包。
-
Substrate – 用于用 Rust 编写可扩展、可升级区块链的框架。
-
计算神经科学 – 一门使用计算方法研究神经系统的跨学科科学。
-
数字历史 – 计算机辅助的历史科学研究。
-
科学写作 – 使用 Markdown、reStructuredText 和 Jupyter notebooks 进行无干扰的科学写作。
-
测试 – 软件测试。
-
视觉回归测试 – 确保更改未破坏功能或样式。
-
Selenium – 开源浏览器自动化框架和生态系统。
-
Appium – 应用程序测试自动化工具。
-
TAP – 测试任何协议。
-
JMeter – 负载测试和性能测量工具。
-
k6 – 开源、面向开发者的性能监控和负载测试解决方案。
-
Playwright – 一个 Node.js 库,用于通过单一 API 自动化 Chromium、Firefox 和 WebKit。
-
质量保证路线图 – 如何开始并建立软件测试职业。
-
JSON – 基于文本的数据交换格式。
-
CSV – 一种文本文件格式,用于存储表格数据,并使用逗号分隔值。
-
Awesome – 递归示意图。
-
回答 – Stack Overflow、Quora 等。
-
Sketch – macOS 的设计应用程序。
-
Gulp – 任务运行器。
-
AMA – 随便问我什么。
-
OpenGL – 跨平台的 2D 和 3D 图形渲染 API。
-
Unicode – Unicode 标准、特性、软件包和资源。
-
公民科学 – 面向社区基础和非机构科学家的资源。
-
MQTT – “物联网”连接协议。
-
Vorpal – Node.js CLI 框架。
-
Vulkan – 低开销的跨平台 3D 图形和计算 API。
-
LaTeX – 排版语言。
-
经济学 – 经济学家的入门工具包。
-
化学信息学 – 应用于化学问题的信息学技术。
-
Colorful – 选择你的下一个配色方案。
-
Steam – 数字分发平台。
-
机器人 – 构建机器人。
-
工程中的同理心 – 构建和推广更具同情心的工程文化。
-
DTrace – 动态追踪框架。
-
用户脚本 – 提升浏览体验。
-
宝可梦 – 宝可梦及宝可梦 GO。
-
ChatOps – 通过聊天管理技术和业务操作。
-
虚假信息 – 程序员信奉的虚假信息。
-
领域驱动设计 – 通过将实施与不断发展的模型连接的复杂需求的软件开发方法。
-
量化自我 – 通过技术进行自我追踪。
-
SaltStack – 基于 Python 的配置管理系统。
-
网页设计 – 针对数字设计师。
-
创意编码 – 编写有表现力的代码而非功能性代码。
-
无登录网页应用 – 无需登录即可使用的网页应用。
-
自由软件 – 自由如同自由。
-
Framer – 原型设计交互式用户界面。
-
Markdown – 标记语言。
-
开发乐趣 – 有趣的开发者项目。
-
医疗保健 – 面向设施、提供者、开发者、政策专家和研究人员的开源医疗软件。
-
Magento 2 – 基于 PHP 的开源电子商务。
-
TikZ – TeX/LaTeX/ConTeXt 图形绘制包。
-
神经科学 – 研究神经系统和大脑。
-
无广告 – 无广告的替代方案。
-
Esolangs – 设计用于实验或作为笑话的编程语言,而非实际使用。
-
普罗米修斯 – 开源监控系统。
-
Homematic – 智能家居设备。
-
账本 – 命令行下的复式记账。
-
网页货币化 – 一种免费的开放网页标准服务,允许你直接在浏览器中发送资金。
-
非版权作品 – 公有领域的作品。
-
加密货币工具与算法 – 使用加密技术调节单位生成和验证交易的数字货币。
-
多样性 – 创建一个更加包容和多样化的技术社区。
-
开源支持者 – 为开源项目提供免费工具和服务的公司。
-
设计原则 – 创造更好、更一致的设计和体验。
-
上座部佛教 – 上座部佛教传统的教义。
-
inspectIT – 开源的 Java 应用性能管理工具。
-
开源维护者 – 成为开源维护者的经验。
-
计算器 – 适用于各种平台的计算器。
-
验证码 – 一种计算机测试,判断用户是否为人类。
-
Jupyter – 创建和分享包含代码、方程、可视化和叙述文本的文档。
-
FIRST 机器人竞赛 – 国际高中机器人锦标赛。
-
人文科技 – 改善社会的开源项目。
-
演讲者 – 编程和设计社区的会议和聚会演讲者。
-
桌面游戏 – 适合所有人的桌面游戏乐趣。
-
软件 Patreon – 资助个人程序员或开源项目的开发。
-
寄生虫 – 寄生虫及宿主-病原体相互作用。
-
食品 – GitHub 上与食品相关的项目。
-
心理健康 – 软件行业中的心理健康意识和自我关怀。
-
比特币支付处理器 – 开始接受比特币。
-
科学计算 – 利用计算机解决复杂的科学问题。
-
农业 – 农业和园艺的开源技术。
-
产品设计 – 从初步概念到生产设计一个产品。
-
Prisma – 将数据库转换为 GraphQL API。
-
软件架构 – 设计和构建软件的学科。
-
连接数据与报告 – 更好地理解谁有权访问电信和互联网基础设施,以及这些访问的条款。
-
技术栈 – 用于构建不同应用和功能的技术栈。
-
细胞数据 – 针对计算生物学家的基于图像的生物学表型分析。
-
IRC – 开源消息传递协议。
-
广告 – 针对网站的广告和程序化媒体。
-
地球 – 寻找解决气候危机的方法。
-
命名 – 计算机科学中的正确命名方式。
-
生物医学信息提取 – 从非结构化生物医学数据和文本中提取信息。
-
网页归档 – 为了未来的世代而努力保存网络。
-
WP-CLI – WordPress 的命令行界面。
-
信用建模 – 将信用申请人分类为风险等级的方法。
-
Ansible – 基于 Python 的开源 IT 配置管理和自动化平台。
-
生物学可视化 – 在网络上交互式地可视化生物数据。
-
二维码 – 一种矩阵条形码,用于存储和分享少量信息。
-
素食主义 – 让植物性生活方式变得简单和可及。
-
翻译 – 将文本的含义从一种语言转移到另一种语言。
-
所有精彩列表 – GitHub 上的所有精彩列表。
-
精彩索引 – 搜索精彩数据集。
-
精彩搜索 – 快速搜索精彩列表。
-
StumbleUponAwesome – 使用浏览器扩展从 Awesome 数据集中发现随机页面。
-
超棒 CLI 工具 – 一个简单的命令行工具,用于深入了解 Awesome 列表。
-
超棒查看器 – 用于可视化上述所有 Awesome 列表的工具。
美国教育部有一个叫做 CRDC 的数据集,收集了所有美国公立学校的数据,包括人口统计、学术、财务和各种其他有趣的数据点。他们还有使用相同标识符的附属数据集——可以视作扩展包。每 2-3 年更新一次。点击这里访问.
NASA 拥有一些细菌的测序数据,这些细菌在被送入太空前后被采样,用于观察由于缺乏重力、辐射等因素造成的基因差异。如果你想尝试一些生物数据科学,这非常有趣。点击这里访问。
从 NYT 故事中提取:这里
Data is Plural 是由 Jeremy Singer-Vine 出版的一个非常好的通讯。数据集非常随机,但非常有趣。点击这里访问。
大量来自美国及其他国家的恐怖事件列表。每个条目包含事件的日期和地点、动机、是否有人或财产损失、袭击规模、袭击类型等信息。点击这里访问.
恐怖袭击数据集:该数据集包含 1293 起恐怖袭击,每起袭击被分配一个 6 种标签中的一种,指示袭击类型。每次袭击通过一个 0/1 值的属性向量描述,该向量的条目表示特征的缺失/存在。共有 106 个不同的特征。数据集中的文件可用于创建两个不同的图表。数据集中的 README 文件提供了更多细节。下载链接
恐怖分子: 该数据集包含有关恐怖分子及其关系的信息。此数据集旨在进行分类实验,目的是分类恐怖分子之间的关系。数据集包含 851 个关系,每个关系由一个 0/1 值向量描述,其中每个条目表示一个特征的缺失/存在。共有 1224 个不同的特征。每个关系可以被分配一个或多个标签,最多可达四个标签,使得该数据集适用于多标签分类任务。README 文件提供了更多详细信息。下载链接
该网络数据集属于社交网络类别。瓶鼻海豚的社交网络。数据集包含所有链接的列表,其中一个链接代表海豚之间的频繁关联。点击这里访问
该数据库中大约有 208,000 条笑话,来自三个来源。
百万首歌曲数据集是一个免费提供的现代流行音乐轨迹的音频特征和元数据集合。
其目的如下:
-
鼓励研究适用于商业规模的算法
-
提供一个参考数据集以评估研究
-
作为创建大型数据集的快捷替代方案(例如 Echo Nest 的)
-
帮助新研究人员入门 MIR 领域
康奈尔大学的 eBird数据集
通过对全球鸟类的几十年观察,真正是利用公民科学的一种令人印象深刻的方式。点击这里访问。
NUFORC 的地理定位和时间标准化的 UFO 报告,数据覆盖近一个世纪。超过 80,000 份报告。点击这里访问
CDC 拥有一个名为 NAMCS/NHAMCS 的公共数据库,允许你跟踪药物数据。它还有很多其他的数据点,因此可以用于各种其他用途。点击这里访问。
健康与退休研究:公共调查数据
一份列出了公开可用的双年度、非年度和跨年度数据产品的清单。
示例: COVID-19 数据
年份 | 产品 |
---|---|
2020 | 2020 HRS COVID-19 项目 |
原始内容。经许可转载。
相关: