在本文中,我们从多个角度全方面的分析了开源行业数据集的总体状况,分别从文本数据集、视觉数据集和多模态数据集针对31个行业进行了详细的总结和整理,并针对开源行业大模型的现状囧行了统计和分析。
北京智源人工智能研究院希望通过本文的工作,促进多方合作和机制创新,努力促进行业数据的开放和共享,进而促进大模型在各个行业中的应用和发展。
项目持续收集整理中,也期冀相关从业人员补充!
- [2024/10/18] 更新AI大模型行业数据全景扫描
- [2024/9/25] 开源行业指令数据集IndustryInstruction
- [2024/9/25] 发布AI大模型行业数据全景扫描
- [2024/9/25] 开源IndustryCorpus2.0
- [2024/8/30] 收录整理 84 个开源行业大模型
- [2024/8/18] 收录第一版开源行业数据集,共 332 个数据集,包括 187 个文本数据集,76 个视觉数据集合 69 个多模态数据集
- [2024/6/13] 开源IndustryCorpus1.0
ID | Industry | Dataset | Type | Language | Size | Number | Publisher | License | Paper |
---|---|---|---|---|---|---|---|---|---|
1 | 1. 农林牧渔 | IndustryCorpus2.0-农林牧渔 | PT | 中文 英文 | 111.9 | - | BAAI | Apache 2.0 | - |
2 | AgriMa | SFT | 中文 | - | - | 山西大学 | - | - | |
3 | 2. 汽车 | IndustryCorpus2.0-汽车 | PT | 中文 英文 | 39.9 | - | BAAI | Apache 2.0 | - |
4 | 汽车大师问答摘要与推理 | SFT | 中文 | - | 110k | 复旦大学 | - | - | |
5 | 3. 采矿 | IndustryCorpus2.0-采矿 | PT | 中文 英文 | 8.9 | - | BAAI | Apache 2.0 | - |
6 | 4. 石油化工 | IndustryCorpus2.0-石油化工 | PT | 中文 英文 | 40.2 | - | BAAI | Apache 2.0 | - |
7 | ChemData700K | SFT | 英文 | 0.2 | 730k | 上海人工智能实验室 | MIT | [1] | |
8 | 5. 电力能源 | IndustryCorpus2.0-电力能源 | PT | 中文 英文 | 68.7 | - | BAAI | Apache 2.0 | - |
9 | 6. 生物医药 | IndustryCorpus2.0-生物医药 | PT | 中文 英文 | 61.7 | - | BAAI | Apache 2.0 | - |
10 | Pile-PubMed Central | PT | 英文 | 81.6 | - | EleutherAI | MIT | - | |
11 | TCM-Ancient-Books | PT | 中文 | 0.1 | - | xiaopangxia | - | - | |
12 | MedHop | SFT | 英文 | 0.5 | 4k | 伦敦大学学院 | CC BY-SA 3.0 | [2] | |
13 | Mol-Instructions | SFT | 英文 | 0.2 | 2M | 浙江大学 | CC BY 4.0 | [3] | |
14 | ShenNong_TCM_Dataset | SFT | 中文 | 0.1 | 112k | 华东师范大学 | Apache 2.0 | - | |
15 | TCM_Literature_QA | SFT | 中文 | 0 | 13k | 天池小喵萌 | CC BY-NC-SA 4.0 | - | |
16 | 7. 航空航天 | IndustryCorpus2.0-航空航天 | PT | 中文 英文 | 38.6 | - | BAAI | Apache 2.0 | - |
17 | UMETRIP-QA | SFT | 中文 | 0 | 4k | 中航信移动科技有限公司 | - | - | |
18 | 8. 其他制造业 | IndustryCorpus2.0-其他制造 | PT | 中文 英文 | 47.2 | - | BAAI | Apache 2.0 | - |
19 | 9. 计算机/通信 | IndustryCorpus2.0-计算机_通信 | PT | 中文 英文 | 157.8 | - | BAAI | Apache 2.0 | - |
20 | CoSQL | PT | 英文 | 0.1 | - | 密歇根大学 | CC BY-SA 4.0 | [4] | |
21 | Pile-Ubuntu IRC | PT | 英文 | 5.5 | - | EleutherAI | MIT | - | |
22 | OWL-Instruct-ops001 | SFT | 中文 英文 | 0 | - | 北京航空航天大学 | - | [5] | |
23 | OWL-Bench | Evaluation | 中文 | 0 | - | 北京航空航天大学 | - | [6] | |
24 | 10. 计算机编程 | IndustryCorpus2.0-计算机_编程 | PT | 中文 英文 | 11 | - | BAAI | Apache 2.0 | - |
25 | JuICe | PT | 英文 | 3.7 | - | 华盛顿大学 | - | [7] | |
26 | The Stack | PT | 英文 | 56.6 | - | bigcode | Custom | [8] | |
27 | starcoderdata | PT | 英文 | 783 | - | bigcode | Custom | [9] | |
28 | github-code | PT | 英文 | 1000 | - | CodeParrot | Custom | - | |
29 | code_search_net | PT | 英文 | 5 | - | CodeSearchNet | Custom | [10] | |
30 | Lyra | SFT | 中文 英文 | 0 | - | 北京大学 | - | [11] | |
31 | StaQC | SFT | 英文 | 0.1 | 268k | 华盛顿大学 | CC BY 4.0 | [12] | |
32 | CodeGPT | SFT | 中文 | 0 | 32k | 复旦大学 | - | - | |
33 | Code_Alpaca_20K | SFT | 英文 | 0 | 20k | sahil280114 | - | - | |
34 | ToolAlpaca | SFT | 英文 | 0 | 421 | 中国科学院大学 | - | [13] | |
35 | mbpp | Evaluation | 英文 | 0 | 1k | Google Research | CC BY 4.0 | [14] | |
36 | HumanEval | Evaluation | 英文 | 0 | 164 | OpenAI | MIT | [15] | |
37 | 11. 人工智能 | IndustryCorpus2.0-人工智能 | PT | 中文 英文 | 7.7 | - | BAAI | Apache 2.0 | - |
38 | 12. 其他信息服务 | IndustryCorpus2.0-其他信息服务 | PT | 中文 英文 | 1.8 | - | BAAI | Apache 2.0 | - |
39 | yf_amazon | SFT | 中文 | 0.3 | 7M | 亚马逊 | - | - | |
40 | EcomGPT | Evaluation | 中文 英文 | 0 | 6k | 阿里 | - | [16] | |
41 | 13. 房地产/建筑 | IndustryCorpus2.0-房地产_建筑 | PT | 中文 英文 | 105.2 | - | BAAI | Apache 2.0 | - |
42 | 14. 交通运输/邮政 | IndustryCorpus2.0-交通运输 | PT | 中文 英文 | 40.5 | - | BAAI | Apache 2.0 | - |
43 | TransGPT-pt | PT | 中文 | 0 | - | 北京交通大学 | Apache 2.0 | - | |
44 | TransGPT-sft | SFT | 中文 | 0 | 58k | 北京交通大学 | Apache 2.0 | - | |
45 | 15. 水利/海洋 | IndustryCorpus2.0-水利_海洋 | PT | 中文 英文 | 20.2 | - | BAAI | Apache 2.0 | - |
46 | OceanBench | Evaluation | 英文 | 0 | 10k | 浙江大学 | MIT | - | |
47 | 16.数学 | IndustryCorpus2.0-数学 | PT | 中文 英文 | 156.7 | - | BAAI | Apache 2.0 | - |
48 | MathGLM-dataset | PT | 中文 | 9.3 | - | 清华大学 | - | [17] | |
49 | NaturalProofs | PT | 英文 | 0.1 | - | 纽约大学 | MIT | [18] | |
50 | MathPile | PT | 英文 | 21.2 | - | 上海人工智能实验室 | CC BY-NC-SA 4.0 | [19] | |
51 | Proof-Pile-2 | PT | 英文 | 205 | - | EleutherAI | - | [20] | |
52 | OpenWebMath | PT | 英文 | 27.4 | - | University of Toronto | ODC-By 1.0 | [21] | |
53 | Pile-DM_Mathematics | PT | 英文 | 8.1 | - | EleutherAI | MIT | - | |
54 | Goat | SFT | 英文 | 0.5 | 2M | 新加坡国立大学 | Apache 2.0 | [22] | |
55 | OpenMathInstruct-1 | SFT | 英文 | 2.9 | 7M | NVIDIA | Custom | [23] | |
56 | MWP-Instruct | SFT | 英文 | 0 | 252k | Macropodus | Apache 2.0 | - | |
57 | BELLE_School_Math | SFT | 中文 | 0.1 | 248k | BELLE Group | GPL 3.0 | - | |
58 | Math23K | Evaluation | 中文 | 0 | 23k | 腾讯 | - | - | |
59 | math_dataset | Evaluation | 英文 | 2.2 | - | Google DeepMind | Apache 2.0 | [24] | |
60 | Gsm8k | Evaluation | 英文 | 0 | 8k | OpenAI | MIT | [25] | |
61 | Ape210K | Evaluation | 中文 | 0 | 210k | 腾讯 | - | - | |
62 | 17. 学科教育 | IndustryCorpus2.0-学科教育 | PT | 中文 英文 | 340.9 | - | BAAI | Apache 2.0 | - |
63 | Educhat-sft-002-data-osm | SFT | 中文 英文 | 5 | 4M | 华东师范大学 | CC BY-NC 4.0 | - | |
64 | MCTS | SFT | 中文 | 0.1 | 691k | 北京语言大学 | - | [26] | |
65 | Child_chat_data | SFT | 中文 | 0 | - | 哈尔滨工业大学 | - | - | |
66 | EXAMS | SFT | - | 0.2 | 24k | Sofia University | CC BY-NC-SA 4.0 | [27] | |
67 | 18. 科技/科学研究 | IndustryCorpus2.0-科技_科学研究 | PT | 中文 英文 | 101.6 | - | BAAI | Apache 2.0 | - |
68 | RedPajama-Data-1T | PT | 英文 | 5.3 | - | 北京理工大学 | Custom | - | |
69 | S2ORC | PT | 英文 | 0 | - | 艾伦人工智能研究所 | ODC-By 1.0 | [28] | |
70 | WanJuan1.0-CN/Patent | PT | 中文 | 4.6 | - | 上海人工智能实验室 | CC BY 4.0 | [29] | |
71 | CSL-pt | PT | 中文 | 1.5 | - | 中国地质大学 | Apache 2.0 | [30] | |
72 | CORD-19 | PT | 英文 | 17.4 | - | 艾伦人工智能研究所 | Custom | [31] | |
73 | Elsevier OA CC-BY | PT | 英文 | 1 | - | Elsevier | CC BY 4.0 | [32] | |
74 | Pile-ArXiv | PT | 英文 | 55.5 | - | EleutherAI | MIT | [33] | |
75 | GeoSignal | SFT | 英文 | 0 | 40k | daven3 | Apache 2.0 | - | |
76 | SciMRC | SFT | 英文 | 0 | 21k | 北京理工大学 | Apache 2.0 | - | |
77 | CSL-sft | SFT | 中文 | 0.1 | - | 中国地质大学 | Apache 2.0 | [34] | |
78 | CSL-bench | Evaluation | 中文 | 0 | 10k | 中国地质大学 | Apache 2.0 | [35] | |
79 | 19. 医学/健康/心理 | IndustryCorpus2.0-医学_健康_心理 | PT | 中文 英文 | 271.7 | - | BAAI | Apache 2.0 | - |
80 | Pile-PubMed_Abstracts | PT | 英文 | 22.4 | - | EleutherAI | MIT | [36] | |
81 | Pubmed | PT | 英文 | 42.1 | - | 马里兰大学 | Custom | - | |
82 | medical_book_zh | PT | 中文 | 0 | - | shibing624 | Apache 2.0 | - | |
83 | guidelines | PT | 英文 | 0.9 | - | EPFL | Custom | [37] | |
84 | medal | PT | 英文 | 21 | - | McGill University | - | [38] | |
85 | ChatDoctor | SFT | 英文 | 0.1 | 115k | 美国德克萨斯大学 | Apache 2.0 | [39] | |
86 | MeChat | SFT | 中文 | 0 | 310k | 浙江大学 | - | [40] | |
87 | CMtMedQA | SFT | 中文 | 0.1 | 68k | 郑州大学自然语言处理实验室 | MIT | - | |
88 | DISC-Med-SFT | SFT | 中文 | 0.8 | 465k | 复旦大学 | Apache 2.0 | [41] | |
89 | Huatuo-26M | SFT | 中文 | 5 | 26M | 香港中文大学 | Apache 2.0 | [42] | |
90 | HuatuoGPT-sft-data-v1 | SFT | 中文 | 0.3 | 226k | 香港中文大学 | Apache 2.0 | - | |
91 | Chinese medical dialogue data | SFT | 中文 | 0.3 | 792k | 上海科技大学 | MIT | - | |
92 | QiZhenGPT-sft-20k | SFT | 中文 | 0 | 20k | 浙江大学 | GPL 3.0 | - | |
93 | ChatMed_Consult_Dataset | SFT | 中文 | 0.4 | 549k | 中国农业大学 | CC BY 4.0 | - | |
94 | medical-sft | SFT | 中文 | 1.3 | 2M | shibing625 | Apache 2.0 | - | |
95 | cMedQA2 | SFT | 中文 | 0 | 108k | 国防科技大学 | GPL 3.0 | [43] | |
96 | webMedQA | SFT | 中文 | 0 | 63k | 中国科学院 | Apache 2.0 | [44] | |
97 | PubMedQA | SFT | 英文 | 0.6 | - | University of Pittsburgh | MIT | [45] | |
98 | CMCQA | SFT | 中文 | 2.8 | - | 中国科学院 | - | [46] | |
99 | medical_dialog | SFT | 中文 英文 | - | 1M | University of California | - | [47] | |
100 | LiveQA | SFT | 英文 | 0 | 0.7k | 美国国家医学图书馆 | - | [48] | |
101 | MedQA | SFT | 简中 繁中 英文 | 0.3 | 61k | 美国麻省理工学院 | MIT | [49] | |
102 | MedMCQA | SFT | 英文 | 0.1 | 192k | Saama AI Research Institute | MIT | [50] | |
103 | HealthSearchQA | SFT | 英文 | 0 | 3k | Google Research | - | [51] | |
104 | AquilaMed-Instruct | SFT | 中文 英文 | 0.2 | 318k | BAAI | Apache 2.0 | [52] | |
105 | AquilaMed-RL | RLHF/RM | 中文 英文 | - | 13k | BAAI | Apache 2.0 | [53] | |
106 | Zhongjing-rlhf-2k | RLHF/RM | 中文 | 0 | 2k | 郑州大学自然语言处理实验室 | Apache 2.0 | [54] | |
107 | reward-reward | RLHF/RM | 中文 | 0 | 4k | shibing626 | Apache 2.0 | - | |
108 | CMB | Evaluation | 中文 | 0 | 11k | 香港中文大学 | Apache 2.0 | [55] | |
109 | 药品适应症评测 | Evaluation | 中文 | 0 | 95 | 浙江大学 | GPL 3.0 | - | |
110 | CMExam | Evaluation | 中文 | 0 | 68k | 阿里巴巴 | Apache 2.0 | [56] | |
111 | MedBench | Evaluation | 中文 | 0 | 300k | 上海人工智能实验室 | - | - | |
112 | 20.法律/司法 | IndustryCorpus2.0-法律_司法 | PT | 中文 英文 | 235.8 | - | BAAI | Apache 2.0 | - |
113 | 国际仲裁法律、规则与实践数据集 | PT | - | 0 | - | 大模型语料数据联盟 | CC BY-NC 4.0 | - | |
114 | Pile-FreeLaw | PT | 英文 | 50.1 | - | EleutherAI | MIT | [57] | |
115 | 法律法规数据库 | PT | 中文 | 0 | - | OpenDataLab | Custom | - | |
116 | WanJuan1.0-CN/Law | PT | 中文 | 37.9 | - | 上海人工智能实验室 | CC BY 4.0 | [58] | |
117 | TigerBot-law | PT | 中文 | 0 | 56k | Tiger Research | Apache 2.0 | - | |
118 | HanFei | SFT | 中文 | 0.2 | - | 中科院深圳先进院 | Apache 2.0 | - | |
119 | DISC-Law-SFT | SFT | 中文 | 0.4 | 295k | 复旦大学 | Apache 2.0 | [59] | |
120 | LawGPT_zh | SFT | 中文 | 0 | 144k | 上海交通大学 | - | - | |
121 | SLJA | SFT | 中文 | 0.2 | - | 山东大学 | Apache 2.0 | [60] | |
122 | LAiW | Evaluation | 中文 | 0 | 11k | 四川大学 | MIT | [61] | |
123 | DISC-Law-Eval-Benchmark | Evaluation | 中文 | 0 | - | 复旦大学 | Apache 2.0 | [62] | |
124 | LawBench | Evaluation | 中文 | 0 | 10k | 上海人工智能实验室 | Apache 2.0 | [63] | |
125 | 21. 金融/经济 | IndustryCorpus2.0-金融_经济 | PT | 中文 英文 | 145.8 | - | BAAI | Apache 2.0 | - |
126 | EDT | PT | 英文 | 0.5 | - | 东北大学 | - | [64] | |
127 | BBT-FinCorpus | PT | 中文 | 16 | - | 复旦大学 | - | [65] | |
128 | FinCorpus | PT | 中文 | 60 | - | 度小满 | Apache 2.0 | - | |
129 | TigerBot | PT | 中文 | 1.1 | - | Tiger Research | Apache 2.0 | - | |
130 | DISC-Fin-SFT | SFT | 中文 | 0 | 400 | 复旦大学 | Apache 2.0 | [66] | |
131 | DuEE-fin | SFT | 中文 | 0 | - | 百度 | - | - | |
132 | FinGPT | SFT | 英文 | 0 | 205k | University of California | MIT | [67] | |
133 | FinanceIQ | Evaluation | 中文 | 0 | - | 度小满 | CC BY-NC-SA 4.0 | - | |
134 | FinBen | Evaluation | 中文 英文 西班牙 | 0 | 7k | The Fin AI | Custom | [68] | |
135 | FinEval | Evaluation | 中文 | 0 | 8k | 上海财经大学 | CC BY-NC-SA 4.0 | [69] | |
136 | CFLEB | Evaluation | 中文 | 0 | 11k | 复旦大学 | - | [70] | |
137 | IndustryCorpus2.0-体育 | PT | 中文 英文 | 262.5 | - | BAAI | Apache 2.0 | - | |
138 | K-SportsSum | SFT | 中文 | 0 | 8k | 苏州大学 | - | [71] | |
139 | Taskmaster-2-phy | SFT | 英文 | 0 | 9k | CC BY 4.0 | [72] | ||
140 | 23. 影视/娱乐 | IndustryCorpus2.0-影视_娱乐 | PT | 中文 英文 | 209.4 | - | BAAI | Apache 2.0 | - |
141 | Pile-OpenSubtitles | PT | 英文 | 6.7 | - | EleutherAI | MIT | [73] | |
142 | IMDb | PT | 英文 | 0.9 | - | 斯坦福大学 | Custom | - | |
143 | ez_douban | SFT | 中文 | 0.1 | 3M | 豆瓣电影 | - | - | |
144 | dmsc_v2 | SFT | 中文 | 0.1 | 2M | 豆瓣电影 | - | - | |
145 | 24. 游戏 | IndustryCorpus2.0-游戏 | PT | 中文 英文 | 37.6 | - | BAAI | Apache 2.0 | - |
146 | MNBVC-game | PT | 中文 | 0 | - | MOP里屋社区 | MIT | - | |
147 | 25. 时政/政务/行政 | IndustryCorpus2.0-政务 | PT | 中文 英文 | 271.5 | - | BAAI | Apache 2.0 | - |
148 | MNBVC-politics | PT | 中文 | 0.4 | - | MOP里屋社区 | MIT | - | |
149 | 中文马克思主义文库 | PT | 中文 | 0 | - | OpenDataLab | MBODL-BY-NC-SA 1.0 | - | |
150 | yayi2_pretrain_data | PT | 中文 | - | - | 中科闻歌 | Apache 2.0 | - | |
151 | 26. 文学/情感 | IndustryCorpus2.0-文学_情感 | PT | 中文 英文 | 105.5 | - | BAAI | Apache 2.0 | - |
152 | 国学迷-古籍 | PT | 中文 | 2.7 | - | OpenDataLab | MBODL-BY-NC-SA 1.0 | - | |
153 | Pile-PhilPapers | PT | 英文 | 2.2 | - | EleutherAI | MIT | [74] | |
154 | 古诗词数据集 | PT | 中文 | 0.4 | - | - | CC BY 4.0 | - | |
155 | 中华古诗词数据库 | PT | 中文 | - | - | jackeyGao | MIT | - | |
156 | 古诗词 | PT | 中文 | 7.1 | - | OpenDataLab | MBODL-BY-NC-SA 1.0 | - | |
157 | Pile-Gutenberg | PT | 英文 | 10.5 | - | EleutherAI | MIT | [75] | |
158 | MAMS | SFT | 英文 | 0 | - | 中国科学院 | Apache 2.0 | [76] | |
159 | ASAP | SFT | 中文 | 0 | 33k | 美团 | - | [77] | |
160 | EPRSTMT | SFT | 中文 | 0 | 20k | CLUE team | MIT | [78] | |
161 | EmpatheticDialogues | SFT | 英文 | 0 | 25k | 华盛顿大学 | CC BY-NC 4.0 | [79] | |
162 | Allegro Reviews | SFT | 波兰语 | 0 | 12k | Allegro Machine Learning Research | CC BY-SA 4.0 | [80] | |
163 | 27. 旅游/地理 | IndustryCorpus2.0-旅游_地理 | PT | 中文 英文 | 64 | - | BAAI | Apache 2.0 | - |
164 | GeoGLUE | Evaluation | 中文 | - | 250k | Institute for Intelligent Computing | CC BY-NC 4.0 | - | |
165 | 28. 住宿/餐饮/酒店 | IndustryCorpus2.0-住宿_餐饮_酒店 | PT | 中文 英文 | 29.6 | - | BAAI | Apache 2.0 | - |
166 | HotelRec | PT | 英文 | 13.4 | - | 洛桑联邦理工学院 | Custom | [81] | |
167 | Amazon Fine Foods | SFT | 英文 | 0.1 | 568k | 斯坦福大学 | - | [82] | |
168 | ChnSentiCorp_htl_all | SFT | 中文 | 0 | 7k | 携程网 | - | - | |
169 | waimai_10k | SFT | 中文 | 0 | 12k | 某外卖平台 | - | - | |
170 | XiaChuFang Recipe Corpus | SFT | 中文 | 0.6 | 2M | 清华大学 | - | - | |
171 | yf_dianping | SFT | 中文 | 0.7 | 44k | 大众点评 | - | - | |
172 | Taskmaster-2 | SFT | 英文 | 0 | 6k | CC BY 4.0 | [83] | ||
173 | 29. 新闻传媒 | IndustryCorpus2.0-新闻传媒 | PT | 中文 英文 | 209.4 | - | BAAI | Apache 2.0 | - |
174 | WanJuan1.0-CN/ChinaNews | PT | 中文 | 21.5 | - | 上海人工智能实验室 | CC BY 4.0 | [84] | |
175 | 新闻联播文字版 | PT | 中文 | 0.5 | - | OpenDataLab | MBODL-BY-NC-SA 1.0 | - | |
176 | RealNews | PT | 英文 | 46.4 | - | 华盛顿大学 | Apache 2.0 | [85] | |
177 | NAIST COVID | PT | 中文 英文 日文 | 9.6 | - | Nara Institute of Science and Technology | - | [86] | |
178 | OpenNewsArchive | PT | 中文 英文 | 11.7 | - | 大模型语料数据联盟 | CC BY 4.0 | - | |
179 | news2016zh | PT | 中文 | 9 | - | CLUEbenchmark | MIT | - | |
180 | 清华新闻分类语料 | SFT | 中文 | 2.2 | - | 清华大学 | Custom | - | |
181 | 30. 安全 | IndustryCorpus2.0-安全 | PT | 中文 英文 | 4.3 | - | BAAI | Apache 2.0 | - |
182 | 中国网络安全中文基础语料库 | PT | 中文 | 99.7 | - | 中国网络空间安全协会 | - | - | |
183 | security-paper-datasets | PT | 中文 英文 | 0.7 | - | 云起无垠 | - | - | |
184 | 食品安全主题数据集 | SFT | 中文 | 0 | 10k | 东北证券 | - | - | |
185 | 31. 其他 | IndustryCorpus2.0-其他 | PT | 中文 英文 | 188.6 | - | BAAI | Apache 2.0 | - |
186 | CLUECorpus2020 | PT | 中文 | 100 | - | CLUE Organization | - | [87] | |
187 | WebGPT | RLHF/RM | 英文 | 0.2 | 20k | OpenAI | - | [88] |
👆 BACK to Table of Contents -->
ID | Industry | Dataset | Type | Language | Size | Publisher | License | Paper |
---|---|---|---|---|---|---|---|---|
1 | 1. 农林牧渔 | 香蕉成熟度分类 | 图像 | 中文 | 0.2 | aliyun4949246966 | GPL 2.0 | - |
2 | CD&S | 图像 | 英文 | 13.5 | 普渡大学 | - | [1] | |
3 | Barley Remote Sensing | 图像 | 中文 | 4.2 | 广州泾渭信息科技 | CC BY-NC-SA 4.0 | - | |
4 | Global Wheat | 图像 | - | 15.4 | 东京大学 | CC BY 4.0 | [2] | |
5 | ACFR_Orchard_Fruit | 图像 | 英文 | 3.8 | 悉尼大学 | - | [3] | |
6 | PASTIS | 图像 | 英文 | 26.8 | LASTIG, Univ. Gustave Eiffel | - | [4] | |
7 | PlantVillage Dataset | 图像 | 中文 | 1.7 | 游客5lkphlzhcgmho | CC BY-NC-SA 4.0 | - | |
8 | 2. 汽车 | Stanford Cars Dataset | 图像 | 英文 | 2 | 斯坦福大学 | - | [5] |
9 | VisDrone 2021 | 图像 | 英文 | 98.4 | 天津大学 | CC BY-NC-SA 4.0 | [6] | |
10 | CompCars | 图像 | 英文 | 1.9 | 香港中文大学 | Custom | [7] | |
11 | COWC | 图像 | 英文 | 10.4 | Lawrence Livermore National Laboratory | AGPL 3.0 | [8] | |
12 | RadarScenes | 图像 | 英文 | 10.7 | Mercedes-Benz AG | CC BY-NC-SA 4.0 | [9] | |
13 | CCPD | 图像 | 中文 | 12.6 | 中国科学技术大学 | MIT | [10] | |
14 | 车型分类 | 图像 | 英文 | 0 | TU Berlin | CDLA 1.0 | - | |
15 | 3. 采矿 | - | - | - | - | - | - | - |
16 | 4. 石油化工 | - | - | - | - | - | - | - |
17 | 5. 电力能源 | elpv-dataset | 图像 | 英文 | 0 | Nuremberg Institute of Technology | CC BY-NC-SA 4.0 | [11] |
18 | InsulatorDataSet | 图像 | 英文 | 0.4 | WANG Zi-Hao | - | - | |
19 | 6. 生物医药 | AGAR | 图像 | 英文 | 31 | University of Wroclaw | CC BY-NC 2.0 | [12] |
20 | 7. 航空航天 | DOTA v2.0 | 图像 | 英文 | 137.5 | 武汉大学 | Custom | - |
21 | LoveDA | 图像 | 英文 | 11.9 | 武汉大学 | CC BY-NC-SA 4.0 | [13] | |
22 | So2Sat LCZ42 | 图像 | 英文 | 110.1 | Technical University of Munich | CC BY 4.0 | [14] | |
23 | Aerial imagery dataset | 图像 | 英文 | 26.5 | 武汉大学 | - | [15] | |
24 | 航空高光谱遥感影像 | 图像 | 中文 | 1.7 | 中国科学院 | - | [16] | |
25 | AeBAD | 图像 | 英文 | 1.5 | 西安交通大学 | - | [17] | |
26 | 8. 其他制造业 | NEU-CLS | 图像 | 英文 | 0 | 东北大学 | - | [18] |
27 | Severstal | 图像 | 英文 | 1.7 | Severstal | Custom | - | |
28 | KolektorSDD | 图像 | 英文 | - | University of Ljubljana | CC BY-NC-SA 4.0 | [19] | |
29 | 天池铝型材表面瑕疵 | 图像 | 中文 | 3 | 天池小喵萌 | CC BY-NC 4.0 | - | |
30 | 9. 计算机/通信 | - | - | - | - | - | - | - |
31 | 10. 计算机编程 | - | - | - | - | - | - | - |
32 | 11. 人工智能 | - | - | - | - | - | - | - |
33 | 12. 其他信息服务 | - | - | - | - | - | - | - |
34 | 13. 房地产/建筑 | BuildingNet | 图像 | 英文 | 10.8 | UMass Amherst | - | [20] |
35 | FloorPlanCAD | 图像 | 英文 | 5.4 | 阿里巴巴 | CC BY-NC 4.0 | [21] | |
36 | xBD | 图像 | 英文 | 30.5 | Carnegie Mellon University | BSD 3-Clause | [22] | |
37 | S2Looking | 图像 | 英文 | 11.4 | 北京遥感研究所 | - | [23] | |
38 | House3K | 图像 | 英文 | 28.2 | University of the Philippines | Custom | [24] | |
39 | 14. 交通运输/邮政 | Caltech Pedestrian Detection Benchmark | 视频 | 英文 | 11.3 | California Institute of Technology | - | [25] |
40 | LDDRS | 图像 | 英文 | 1.7 | 西北工业大学 | - | [26] | |
41 | FRSign | 图像 | 英文 | 590 | Institut de Recherche Technologique SystemX | CC BY-NC-SA 4.0 | [27] | |
42 | TRANCOS | 图像 | 英文 | 1.5 | University of Alcalá | Custom | [28] | |
43 | S2TLD | 图像 | 中文 | 1.4 | 上海交通大学 | MIT | [29] | |
44 | CCD | 视频 | 英文 | 67.1 | Rochester Institute of Technology | MIT | [30] | |
45 | CrackForest | 图像 | 英文 | 0 | University of Chinese Academy of Sciences | Custom | [31] | |
46 | 15. 水利/海洋 | MARIDA | 图像 | 英文 | 1.2 | National Technical University of Athens | CC BY 4.0 | [32] |
47 | SUIM | 图像 | 英文 | 0.2 | University of Minnesota | - | [33] | |
48 | 16. 数学 | - | - | - | - | - | - | - |
49 | 17. 学科教育 | - | - | - | - | - | - | - |
50 | 18. 科技/科学研究 | HRSC2016 | 图像 | - | 3.5 | 西北工业大学 | ODbl 1.0 | - |
51 | Chikusei Dataset | 图像 | 英文 | 2.3 | 东京大学 | - | [34] | |
52 | 19. 医学/健康/心理 | SA-Med2D-20M | 图像 | 英文 | 328.6 | 上海人工智能实验室 | Apache 2.0 | [35] |
53 | IXI | 图像 | 英文 | 27.4 | University of Bucharest | CC BY-SA 3.0 | [36] | |
54 | LoDoPaB-CT | 图像 | 英文 | 51.5 | University of Bremen | CC BY 4.0 | [37] | |
55 | MedFMC | 图像 | 英文 | 38.4 | opendatalab | CC BY-SA 4.0 | - | |
56 | CHAOS | 图像 | 英文 | 2.7 | Dokuz Eylul University | CC BY-NC-SA 4.0 | [38] | |
57 | IntrA | 图像 | 英文 | 2.3 | 东京大学 | - | [39] | |
58 | 宫腔镜图像良恶性病变 | 图像 | 中文 | 0.4 | 北京朝阳医院 | CC BY-NC-SA 4.0 | - | |
59 | HC18 | 图像 | 英文 | 0.3 | Radboud University Medical Center | CC BY 4.0 | [40] | |
60 | Breast Ultrasound Images Dataset | 图像 | 英文 | 0.2 | Faculty of Computer and Artificial Intelligence | - | [41] | |
61 | ACDC Scribbles | 图像 | 英文 | 0 | University of Edinburgh | - | [42] | |
62 | Medical Segmentation Decathlon | 图像 | 英文 | 72.5 | MONAI Development Team | CC BY-SA 4.0 | [43] | |
63 | LIDC-IDRI | 图像 | 英文 | 61.5 | The University of Chicago | CC BY 3.0 | [44] | |
64 | Medical Imaging | 图像 | 英文 | - | - | - | - | |
65 | 20. 法律/司法 | - | - | - | - | - | - | - |
66 | 21. 金融/经济 | - | - | - | - | - | - | - |
67 | 22. 体育 | - | - | - | - | - | - | - |
68 | 23. 影视/娱乐 | DeepScores | 图像 | 英文 | 76.8 | ZHAW Datalab & USI | - | [45] |
69 | UCO-LAEO | 图像 | 英文 | 4.7 | University of Cordoba | - | [46] | |
70 | 24. 游戏 | GLIB: image dataset | 图像 | 英文 | 10.2 | Fuxi AI Lab in Netease | CC BY 4.0 | [47] |
71 | CocoDoom | 图像 | 英文 | 14.7 | 牛津大学 | - | [48] | |
72 | 25. 时政/政务/行政 | - | - | - | - | - | - | - |
73 | 26. 文学/情感 | - | - | - | - | - | - | - |
74 | 27. 旅游/地理 | European Flood 2013 | 图像 | 英文 | 11.6 | Friedrich Schiller University Jena | - | [49] |
75 | Notre Dame | 图像 | 英文 | 1.8 | Photo Tourism group | Custom | - | |
76 | OmniCity | 图像 | 英文 | 14.4 | 中山大学 | CC BY-NC 4.0 | [50] | |
77 | 28. 住宿/餐饮/酒店 | Hotels-50K | 图像 | 英文 | 3.1 | George Washington University | - | [51] |
78 | 29. 新闻传媒 | WanJuan1.0-video | 视频 | 中文 | 916.7 | 上海人工智能实验室 | CC BY 4.0 | [52] |
79 | 30. 安全 | - | - | - | - | - | - | - |
80 | 31. 其他 | MovingFashion | 视频 | 英文 | 24.1 | University of Verona | CC BY-NC-SA 4.0 | [53] |
81 | VegFru | 图像 | 中文 | 13.1 | 中国科学技术大学 | Apache 2.0 | [54] | |
82/td> | DeepFashion2 | 图像 | 英文 | 14.7 | 香港中文大学 | - | [55] | |
83 | DeepPCB | 图像 | 英文 | - | 上海交通大学 | - | [56] | |
84 | DAGM 2007 | 图像 | 英文 | 2.9 | Robert Bosch Corporate Research department | CC BY 4.0 | - | |
85 | 磁瓦缺陷 | 图像 | 英文 | - | University of Chinese Academy of Sciences | - | [57] | |
86 | Kylberg Texture Dataset v. 1.0 | 图像 | 英文 | 11.6 | Swedish University of Agricultural Sciences and Uppsala University | - | - | |
87 | 手扶电梯梯级缺陷 | 图像 | 中文 | 0 | LJY0031 | CC0 1.0 | - | |
88 | BSData | 图像 | 英文 | - | sungsy | - | - | |
89 | BeanTech | 图像 | 英文 | 1.1 | University of Udine | CC BY-SA 4.0 | [58] | |
90 | MVTec异常检测 | 图像 | 英文 | - | Technical University of Munich | CC BY-NC-SA 4.0 | [59] |
👆 BACK to Table of Contents -->
ID | Industry | Dataset | Type | Language | Size | Publisher | License | Paper |
---|---|---|---|---|---|---|---|---|
1 | 1. 农林牧渔 | Pigs4YOLO | 图像-文本 | 中文 | 0.1 | zhengvh | CC BY-NC-SA 4.0 | - |
2 | Lincolnbeet | 图像-文本 | 英文 | 26.6 | University of Lincoln | - | [1] | |
3 | Multispectral_etc | 图像-文本 | 英文 | 0.7 | University of Idaho | - | [2] | |
4 | EuroCrops | 图像-文本 | 英文 | 2 | Technical University of Munich (TUM) | CC BY 4.0 | [3] | |
5 | 2. 汽车 | Lyft Level 5 Prediction | 图像-文本 | 英文 | 19.8 | Lyft Level 5 | CC BY-NC-SA 4.0 | [4] |
6 | nuScenes | 图像-文本 | 英文 | 346.5 | APTIV Company | Custom | [5] | |
7 | DDAD | 图像-文本 | 英文 | 269 | Toyota Research Institute | - | [6] | |
8 | OpenLane | 图像-文本 | 英文 | 122.5 | 上海人工智能实验室 | CC BY-NC-SA 4.0 | [7] | |
9 | OpenLane-V2 | 图像-文本 | 英文 | 193.3 | 上海人工智能实验室 | CC BY 4.0 | [8] | |
10 | ONCE | 图像-文本 | 英文 | 1917.4 | 华为 | CC BY-NC-SA 4.0 | [9] | |
11 | OpenScen | 图像-文本 | 英文 | 3739.6 | 上海人工智能实验室 | CC BY-NC-SA 4.0 | [10] | |
12 | Car License Plate Detection | 图像-文本 | 英文 | 0.2 | Hospital Israelita Albert Einstein | CC0 1.0 | - | |
13 | CVPR 2018 WAD | 图像-文本 | 英文 | 103 | CVPR 2018 WAD | Custom | - | |
14 | 3. 采矿 | - | - | - | - | - | - | - |
15 | 4. 石油化工 | - | - | - | - | - | - | - |
16 | 5. 电力能源 | - | - | - | - | - | - | - |
17 | 6. 生物医药 | - | - | - | - | - | - | - |
18 | 7. 航空航天 | RSICD | 图像-文本 | 英文 | 0.6 | 中国科学院 | - | [11] |
19 | 8. 其他制造业 | - | - | - | - | - | - | - |
20 | 9. 计算机/通信 | - | - | - | - | - | - | - |
21 | 10. 计算机编程 | - | - | - | - | - | - | - |
22 | 11. 人工智能 | - | - | - | - | - | - | - |
23 | 12. 其他信息服务 | - | - | - | - | - | - | - |
24 | 13. 房地产/建筑 | - | - | - | - | - | - | - |
25 | 14. 交通运输/邮政 | Reasonable Crowd | 视频-文本 | 英文 | 27.5 | Motional. Boston, MA | MIT | [12] |
26 | 15. 水利/海洋 | - | - | - | - | - | - | - |
27 | 16. 数学 | UniMERNet | 图像-文本 | 英文 | 2 | 上海人工智能实验室 | Apache 2.0 | [13] |
28 | MathVista | 图像-文本 | 英文 | 0.9 | University of California | CC BY-SA 4.0 | [14] | |
29 | clevr-math | 图像-文本 | 英文 | 19 | Umeå university | CC BY 4.0 | [15] | |
30 | GeoQA | 图像-文本 | 英文 | 0.4 | 中山大学 | - | [16] | |
31 | Geometry3K | 图像-文本 | 英文 | 0.3 | University of California | - | [17] | |
32 | 17. 学科教育 | Visual Question Answering | 图像-文本 | 英文 | 42.2 | Virginia Tech | CC BY 4.0 | [18] |
33 | ScienceQA | 图像-文本 | 英文 | 0.6 | University of California | CC BY-NC-SA 4.0 | [19] | |
34 | DVQA | 图像-文本 | 英文 | 5.3 | Rochester Institute of Technology | CC BY-NC 4.0 | [20] | |
35 | AI2D | 图像-文本 | 英文 | 1.7 | Allen Institute for Artificial Intelligence | CC BY-SA 4.0 | [21] | |
36 | TextVQA | 图像-文本 | 英文 | 8.6 | Facebook AI Research | CC BY 4.0 | [22] | |
37 | 18. 科技/科学研究 | QASPER | 图像-文本 | 英文 | 0.6 | Allen Institute for AI | CC BY 4.0 | [23] |
38 | THCHS-30 | 语音-文本 | 中文 | 7.9 | 清华大学 | Custom | [24] | |
39 | AISHELL-1 | 语音-文本 | 中文 | 14.5 | Beijing Shell Shell Technology Co. Ltd | Apache 2.0 | [25] | |
40 | 19. 医学/健康/心理 | MedVidQA | 视频-文本 | 英文 | 3.6 | National Institutes of Health, USA | MIT | [26] |
41 | Kvasir | 图像-文本 | 英文 | 3.6 | University of Oslo | Custom | [27] | |
42 | M3D-Data | 图像-文本 | 英文 | 1208 | BAAI,港中文 | Apache 2.0 | [28] | |
43 | OpenI-zh | 图像-文本 | 中文 英文 | 0.1 | 澳门理工大学 | - | - | |
44 | VQA-RAD | 图像-文本 | 英文 | 0 | National Library of Medicine, USA | - | [29] | |
45 | ImageClef-2019-VQA-Med | 图像-文本 | 英文 | 0.1 | National Library of Medicine, USA | - | [30] | |
46 | MedICaT | 图像-文本 | 英文 | 106 | Allen Institute for AI | - | [31] | |
47 | SLAKE | 图像-文本 | 中文 英文 | 0.2 | 香港理工大学 | - | [32] | |
48 | Montgomery County CXR Set | 图像-文本 | 英文 | 0.5 | National Institutes of Health, USA | - | [33] | |
49 | MMMU | 图像-文本 | 英文 | 0.3 | IN.AI Research | CC BY 4.0 | [34] | |
50 | PMC-OA | 图像-文本 | 英文 | 24.6 | 上海交通大学 | - | [35] | |
51 | Quilt-1M | 图像-文本 | 英文 | 36 | University of Washington | - | [36] | |
52 | ROCOV2 | 图像-文本 | 英文 | 6.4 | University of Applied Sciences and Arts Dortmund (FHDO) | - | [37] | |
53 | RP3D-Caption | 图像-文本 | 英文 | 500 | 上海交通大学 | - | [38] | |
54 | CT-RATE | 图像-文本 | 英文 | - | University of Zurich | CC BY-NC-SA 4.0 | [39] | |
55 | PathVQA | 图像-文本 | 英文 | 1.7 | University of California San Diego | - | [40] | |
56 | COUGHVID | 语音-文本 | 英文 | 1.2 | EPFL | CC BY 4.0 | [41] | |
57 | 20. 法律/司法 | - | - | - | - | - | - | - |
58 | 21. 金融/经济 | - | - | - | - | - | - | - |
59 | 22. 体育 | - | - | - | - | - | - | - |
60 | 23. 影视/娱乐 | MovieNet | 视频-文本 | 英文 | 161.8 | Chinese University of Hong Kong | - | [42] |
61 | VidSitu | 视频-文本 | 英文 | 50 | University of Southern California | MIT | [43] | |
62 | Violin | 视频-文本 | 英文 | 16.6 | Carnegie Mellon University | MIT | [44] | |
63 | M-VAD Names | 视频-文本 | 英文 | 0.2 | University of Modena and Reggio Emilia | Custom | [45] | |
64 | MovieShots | 视频-文本 | 英文 | 17 | Chinese University of Hong Kong | Custom | [46] | |
65 | CMD | 视频-文本 | 英文 | - | University of Oxford | CC BY 4.0 | [47] | |
66 | NES-MDB | 语音-文本 | 英文 | 0.2 | UC San Diego | MIT | [48] | |
67 | MagnaTagATune | 语音-文本 | 英文 | 3.1 | CMU | - | [49] | |
68 | 24. 游戏 | Atari 2600 Video Pinball | 视频-文本 | 英文 | 2.5 | University of Alberta | - | [50] |
69 | Atari Grand Challenge | 视频-文本 | 英文 | 24.9 | RWTH Aachen University | - | [51] | |
70 | 25. 时政/政务/行政 | - | - | - | - | - | - | - |
71 | 26. 文学/情感 | DuVideoSenti | 图像-文本 | 中文 | 11.1 | 百度 | - | [52] |
72 | CREMA-D | 语音-文本 | 英文 | 7.5 | University of Pennsylvania | DbCL 1.0 | [53] | |
73 | EMOVIE | 语音-文本 | 中文 | 0.6 | 浙江大学 | CC BY-NC-SA 2.0 | [54] | |
74 | EmoFilm | 语音-文本 | 英文 意大利 西班牙 | - | University of Augsburg | Custom | [55] | |
75 | AESDD | 语音-文本 | 希腊语 | 0.4 | Aristotle University of Thessaloniki | - | - | |
76 | ESD | 语音-文本 | 中文 英文 | 2.3 | National University of Singapore | Custom | [56] | |
77 | 27. 旅游/地理 | - | - | - | - | - | - | - |
78 | 28. 住宿/餐饮/酒店 | YouCook2 | 视频-文本 | 英文 | 70.2 | University of Michigan | - | [57] |
79 | YouCook | 视频-文本 | 英文 | 3.4 | SUNY at Buffalo | - | [58] | |
80 | RecipeQA | 图像-文本 | 英文 | 2.8 | Hacettepe University | Custom | [59] | |
81 | 29. 新闻传媒 | WanJuan-Media News | 图像-文本 | 中文 | 118 | 上海人工智能实验室 | CC BY 4.0 | [60] |
82 | Fakeddit | 图像-文本 | 英文 | 0.4 | Laguna Blanca School | - | [61] | |
83 | Cross-Modal Comments | 图像-文本 | 中文 | 1.6 | 北京大学 | - | [62] | |
84 | 30. 安全 | - | - | - | - | - | - | - |
85 | 31. 其他 | MMChat | 图像-文本 | 中文 | 1.1 | 阿里巴巴 | - | [63] |
86 | GRIT | 图像-文本 | 英文 | 6.6 | Microsoft Research | ms-pl | [64] |
👆 BACK to Table of Contents -->
Industry | Model | Language | Multimodal | Size | Base Model | Publisher |
---|---|---|---|---|---|---|
1. 农林牧渔 | AgriGPT | 中文 | × | 6B, 13B | ChatGLM2, Baichuan2 | 哈尔滨工业大学 |
2. 汽车 | - | - | - | - | - | - |
3. 采矿 | - | - | - | - | - | - |
4. 石油化工 | - | - | - | - | - | - |
5. 电力能源 | - | - | - | - | - | - |
6. 生物医药 | OpenBioMed | 英文 | × | 7B, 10B | LLaMA2 | 水木分子 |
6. 生物医药 | Taiyi-LLM | 中文 英文 | × | 7B | Qwen | 大连理工大学 |
7. 航空航天 | StarWhisper | 中文 | √ | 14B | - | 中国科学院大学 |
8. 其他制造业 | - | - | - | - | - | - |
9. 计算机/通信 | DevOps-Model | 中文 | × | 7B, 14B | Qwen | 蚂蚁集团 |
10. 计算机编程 | Deepseek Coder | 中文 英文 | × | 1B, 5.7B, 6.7B, 33B | 预训练 | 深度求索 |
10. 计算机编程 | CodeShell | 中文 | × | 7B | 预训练 | 北京大学 |
11. 人工智能 | TestGPT-7B | 中文 | × | 7B | CodeLlama | 蚂蚁集团 |
12. 其他信息服务 | EcomGPT | 中文 | × | 7B | bloomz | 阿里 |
13. 房地产/建筑 | - | - | - | - | - | - |
14. 交通运输/邮政 | 致远-TransGPT | 中文 | √ | 6B, 7B | LLaMA, VisualGLM | 北京交通大学 |
15. 水利/海洋 | MarineGPT | 英文 | √ | 2B, 7B, 13B | Vicuna V0, GEMMA | 香港科技大学 |
15. 水利/海洋 | OceanGPT | 中文 英文 | × | 7B, 14B | Qwen2, Qwen1.5 | 浙江大学 |
16. 数学 | chatglm-maths | 中文 | × | 6B | ChatGLM | yongzhuo |
16. 数学 | MathGLM | 中文 | × | 6B, 10B | ChatGLM, ChatGLM2, GLM-zh | THUDM |
17. 学科教育 | Taoli | 中文 | × | 7B | Chinese-LLaMA | 北京语言大学 |
17. 学科教育 | EduChat | 中文 | × | 1.8B, 14B, 32B, 13B | Baichuan, LLaMA, Qwen1.5 | 华东师范大学 |
17. 学科教育 | 智海-三乐 | 中文 | × | 7B | Qwen | 浙江大学 |
18. 科技/科学研究 | TechGPT | 中文 | × | 7B | LLaMA | 东北大学 |
18. 科技/科学研究 | Mozi | 中文 英文 | × | 7B | LLaMA, Baichuan | 北京理工大学 |
18. 科技/科学研究 | Chat-UniVi | 中文 英文 | √ | 7B | Vicuna-v1.5, CLIP ViT-L/14 | 北京大学 |
18. 科技/科学研究 | ChartLlama | 英文 | √ | 13B | LLaVA-1.5 | 腾讯 |
18. 科技/科学研究 | 九天 | 英文 | √ | 12B | FlanT5-XXL, EVA-G | 哈尔滨工业大学 |
18. 科技/科学研究 | TabelGPT | 中文 | × | 7B | Phoenix | 浙江大学 |
19. 医学/健康/心理 | DoctorGLM | 中文 | × | 6B | ChatGLM | 上海科技大学 |
19. 医学/健康/心理 | BenTsao | 中文 | × | 7B | Huozi1.0, Bloom, Alpaca-Chinese, LLaMA | 哈尔滨工业大学 |
19. 医学/健康/心理 | BianQue | 中文 | × | 6B | ClueAI/ChatYuan-large-v2, ChatGLM, | 华南理工大学未来技术学院 |
19. 医学/健康/心理 | HuatuoGPT | 中文 | × | 7B, 13B | Baichuan, Ziya-LLaMA | 港中文深圳 |
19. 医学/健康/心理 | Med-ChatGLM | 中文 | × | 6B | ChatGLM | 哈尔滨工业大学 |
19. 医学/健康/心理 | QiZhenGPT | 中文 | × | 6B, 7B, 13B | ChatGLM, Chinese-LLaMA-Plus, CaMA | 浙江大学 |
19. 医学/健康/心理 | ChatMed | 中文 | × | 7B | LLaMA | 中国农业大学 |
19. 医学/健康/心理 | ShenNong-TCM-LLM | 中文 | × | 7B | LLaMA | 中国农业大学 |
19. 医学/健康/心理 | XrayGLM | 中文 | √ | 6B | VisualGLM | 澳门理工大学 |
19. 医学/健康/心理 | MedicalGPT | 中文 | × | 8B, 13B | Ziya-LLaMA, Baichuan, Llama3 | 腾讯 |
19. 医学/健康/心理 | Sunsimiao | 中文 | × | 7B | Baichuan | 华东理工大学 |
19. 医学/健康/心理 | CareGPT | 中文 | × | 7B, 13B, 14B, 20B | LLaMA1/2, Baichuan1/2, Qwen, InternLM, | 澳门理工大学 |
19. 医学/健康/心理 | DISC-MedLLM | 中文 | × | 13B | Baichuan | 复旦大学DISC |
19. 医学/健康/心理 | WiNGPT | 中文 | × | 7B, 8B, 14B | Qwen, Llama3 | 卫宁健康人工智能实验室 |
19. 医学/健康/心理 | ChiMed-GPT | 中文 | × | 13B | Ziya2 | 中国科学技术大学 |
19. 医学/健康/心理 | AlpaCare | 英文 | × | 7B, 13B | LLaMA, LLaMA2 | University of California, Santa Barbara |
19. 医学/健康/心理 | ChatPsychiatrist | 英文 | × | 7B | LLaMA | 香港大学 |
19. 医学/健康/心理 | Zhongjing-LLaMA | 中文 | × | 13B | Ziya-LLaMA | 郑州大学自然语言处理实验室 |
19. 医学/健康/心理 | PMC-LLaMA | 英文 | × | 7B, 8B, 13B | LLaMA, LLaMA3 | 上海交通大学 |
19. 医学/健康/心理 | ChatDoctor | 英文 | × | 7B | LLaMA | 美国德克萨斯大学西南医学中心 |
19. 医学/健康/心理 | MING | 中文 | × | 7B | bloomz | 上海交通大学 |
19. 医学/健康/心理 | IvyGPT | 中文 | × | 33B | LLaMA | 澳门理工大学 |
19. 医学/健康/心理 | PULSE | 中文 | × | 7B, 20B | bloomz, InternLM | OpenMEDLab |
19. 医学/健康/心理 | HuangDI | 中文 | × | 13B | Ziya-LLaMA | 南京大学 |
19. 医学/健康/心理 | ZhongJing | 中文 | × | 1.8B | Qwen1.5 | 复旦大学 |
19. 医学/健康/心理 | TCMLLM | 中文 | × | 6B | ChatGLM | 北京交通大学 |
19. 医学/健康/心理 | SoulChat | 中文 | × | 6B | ChatGLM | 华南理工大学未来技术学院 |
19. 医学/健康/心理 | MindChat | 中文 | × | 0.5B, 1.8B, 4B, 7B, 14B | Qwen, Qwen2, InternLM2 | 华东理工大学 |
19. 医学/健康/心理 | MentalLLaMA | 英文 | × | 7B, 13B, 33B | LLaMA2, Vicuna | National Centre for Text Mining |
19. 医学/健康/心理 | MeChat | 中文 | × | 6B | ChatGLM2 | 浙江大学 |
19. 医学/健康/心理 | PICA | 中文 | × | 6B | ChatGLM2 | 东北大学 |
19. 医学/健康/心理 | QiaoBan | 中文 | - | 7B | Baichuan | 哈尔滨工业大学 |
20. 法律/司法 | LawGPT_zh | 中文 | × | 6B | ChatGLM | 上海交通大学 |
20. 法律/司法 | LaWGPT | 中文 | × | 7B | Chinese-LLaMA, Chinese-alpaca-plus | 南京大学 |
20. 法律/司法 | LexiLaw | 中文 | × | 6B | ChatGLM-6B | 清华大学 |
20. 法律/司法 | Lawyer LLaMA | 中文 | × | 13B | Chinese-LLaMA, | 北京大学 |
20. 法律/司法 | HanFei | 中文 | × | 7B | 预训练 | 中科院深圳先进院 |
20. 法律/司法 | ChatLaw | 中文 | × | 13B, 33B | Ziya-LLaMA, Anima | 北京大学 |
20. 法律/司法 | lychee_law | 中文 | × | 10B | GLM | 南京大学 |
20. 法律/司法 | wisdomInterrogatory | 中文 | × | 7B | Baichuan | 浙江大学 |
20. 法律/司法 | fuzi-mingcha | 中文 | × | 6B | ChatGLM | 山东大学 |
20. 法律/司法 | DISC-LawLLM | 中文 | × | 13B | Baichuan | 复旦大学DISC |
20. 法律/司法 | JurisLMs | 中文 | × | 13B | Chinese-LLaMA-Alpaca | seudl |
20. 法律/司法 | TaiLing | 中文 | × | 7B | Qwen | 大连理工大学 |
21. 金融/经济 | Cornucopia | 中文 | × | 7B | LLaMA, Chinese-LLaMA | 中科院成都计算机应用研究所 |
21. 金融/经济 | BBT-FinCUGE-Applications | 中文 | × | 0.2B, 1B | T5-v1.1 | 复旦大学 |
21. 金融/经济 | XuanYuan | 中文 | × | 6B, 13B, 70B, 176B | LLaMA2, bloom | 度小满 |
21. 金融/经济 | FinGPT | 英文 | × | 7B, 13B | LLaMA2, falcon, bloom, mpt, ChatGLM, Qwen | Columbia University |
21. 金融/经济 | DISC-FinLLM | 中文 | × | 13B | Baichuan-13B-Chat | 复旦大学DISC |
21. 金融/经济 | Tongyi-Finance | 中文 | × | 14B | Qwen-14B | 阿里云 |
21. 金融/经济 | InvestLM | 英文 | × | 65B | LLaMA-65B | 香港科技大学 |
21. 金融/经济 | FinGLM | 中文 | × | 6B | ChatGLM2-6B | MetaGLM |
21. 金融/经济 | WeaverBird | 中文 英文 | × | 6B | ChatGLM2-6B | 蚂蚁集团 |
21. 金融/经济 | PIXIU | 英文 | × | 7B | LLaMA-7B | The Fin AI |
21. 金融/经济 | TigerBot | 中文 | × | 7B, 13B, 70B, 180B | bloom, LLaMA2 | 虎博科技 |
22. 体育 | - | - | - | - | - | - |
23. 影视/娱乐 | - | - | - | - | - | - |
24. 游戏 | - | - | - | - | - | - |
25. 时政/政务/行政 | YaYi | 中文 | × | 7B, 13B, 30B | LLaMA2 | 中科闻歌 |
26. 文学/情感 | Xunzi | 中文 | × | 4B, 6B, 7B, 14B | Qwen, ChatGLM3, Xunzi-Qwen1.5, Baichuan2 | 南京农业大学 |
27. 旅游/地理 | k2 | 英文 | × | 7B | LLaMA | 上海交通大学 |
28. 住宿/餐饮/酒店 | - | - | - | - | - | - |
29. 新闻传媒 | - | - | - | - | - | - |
30. 网络安全 | SecGPT | 中文 | × | 13B | Baichuan | 云起无垠 |
30. 网络安全 | AutoAudit | 中文 | × | 7B | Alpaca-Lora | 山东大学 |
31. 其他 | Anima | 中文 | × | 7B, 33B | LLaMA2 | 艾写科技 |
👆 BACK to Table of Contents -->
本项目由北京智源人工智能研究院大模型行业应用组发起和主导
项目主要贡献人员:赵璐璐,代永富,史晓峰,周华