Skip to content

Latest commit

 

History

History
238 lines (154 loc) · 9.85 KB

Readme.md

File metadata and controls

238 lines (154 loc) · 9.85 KB

🔥 Data-Centric ML方向

入门指南

Static Badge Static Badge

注:⚡为基础必读,💎为基础选读,💡为进阶阅读

Data Centric ML Basic

数据侧基础:

Data-Centric ML是研究使用数据生成、选择与配比等方法实现大规模,高效以及提升模型表现的研究方向。

课程难度不大,但是涵盖了很多 DCAI 的 Topic,包括但不限于:Data Selection/Data Cleaning/Distribution Shift/Data Curation 等,每节课都有一个配套的实验,完成难度也不大,完成后可以对该topic有一个比较 general 的认识

LLM and VLM Basic

Quick Start
ImageLLMs
VideoLLMs

可能有帮助的文档

Data-Centric VLMs(主要是数据的选择、增强(recaption),比如重写caption)

见这些论文使用的数据,同时这三个论文的模型和数据量可以训练,其余模型训练不出来(Datasets)

Vision-Language Model Visual Information Extraction

1)主流的VLM普遍使用CLIP-ViT作为Vision Encoder,通过对比学习训练的视觉编码器无法提取细粒度的图像特征,单纯增加图像分辨率对输入窗口影响过大,因此不同VE的融合(比如DINO,SigLip等)与选择是必要的。

2)当前的高分辨率VLLM将图像编码为高分辨率的visual token,计算成本过大。如何选择特定的、问题相关的高分辨率视觉特征,设计灵活高效的注意力机制是必要的。

  1. 不同vision encoder的视觉特征分析与组合
  1. Question-aware的高分辨率视觉特征的提取与注入
Modality Alignment

1)在当前的X-to-T多模态理解模型中,通常使用简单的模块(如MLP)作为跨模态表示的桥梁,但这些方法往往因为简单的空间映射导致不同模态的表征之间产生偏差,从而影响模型的推理和生成。

2)设计更复杂且高效的跨模态对齐机制,尤其是在不同模态间的对齐机制上进行优化是必要的。

  1. 创新性的训练范式
  1. Modality Projector / Resampler的设计(拼接后输入或llm内部注入)
  1. 跨模态间交互的可解释性

Data Centric LLM and VLM Algorithms

Data Processing
Data Evaluation
Data Generation
Data Extraction(RAG)

Data Centric LLM and VLM Systems

1)Data Centric AI数据侧开发,主要关注Data Juicer,要求对于数据侧有比较详细的了解 2)Data Centric AI数据侧工具相关的科研 需要对于数据侧工具有一定的了解,阅读相关的论文 附录:数据评估相关论文

Image数据评估论文

Data-Centric Domain-Specific LLMs

MathLLMs
Math Datasets:

数学知识按照难度分为小学,初中,高中和大学。大学又有很多细分,比如数学分析,高等代数以及概率论与数理统计,最优化方法,数值分析等等目前观察到的现象是说,无论是否是Math的模型,在SFT之后高中和大学数学能力都会大幅度下降,说明数据集的构建不利于高中和大学数学能力的学习