Skip to content

Latest commit

 

History

History
203 lines (162 loc) · 20.2 KB

README_cn.md

File metadata and controls

203 lines (162 loc) · 20.2 KB

InternVideo [论文]

PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC PWC

在这个代码仓库中,我们给出InternVideo的官方实现,'InternVideo: General Video Foundation Models via Generative and Discriminative Learning'。

  • 在Kinetics 400数据集上获取91.1%top-1准确率, 首次突破90%里程碑。
  • 在Something-Something V2数据集上获取77.2%top-1准确率。
  • 39个视频数据集(包括动作识别,时序定位,检索等)上获取世界领先性能(于2022年发布时)。

更新

  • 2023年 9月 7日: ViCLIP: 一个用于可迁移的视频-文本表征的视频版CLIP可从Hugging Face下载。它给出了鲁棒的零样本视频识别性能。可从这儿进行尝试。
  • 2023年 5月11日: 视频指令微调数据发布于这儿,可用于微调端到端的视频对话系统,比如VideoChat
  • 2023年 3月 8日: 所有预训练的基础模型权重已经发布。请从这里查看。
  • 2022年12月 6日: InternVideo技术报告发布。
  • 2022年 9月 2日: 媒体发布 (官方 | 163新闻 | qq新闻)。

引言

我们展示了首个在视频和视频-文本任务上均取得高性能的视频基础模型。

最近,基础模型在计算机视觉领域的诸多下游任务中表现出了优异的性能。然而,大多数现有的视觉基础模型仅关注图像级别的预训练和适应,这对于动态且复杂的视频级理解任务来说是不够的。为了填补这一空白,我们提出了一种通用视频基础模型InternVideo,它利用生成和判别自监督视频学习的优势。具体来说,InternVideo有效地探索了蒙版视频建模与视频-语言对比学习作为预训练目标,并以可学习的方式选择性地协调这两个互补框架中的视频表示,从而提升各种视频应用的性能。InternVideo 在包括视频动作识别/检测、视频-语言对齐、开放式视频应用等众多任务的 39 个视频数据集上实现了最先进的性能。尤其值得一提的是,我们的方法分别在具有挑战性的 Kinetics-400 和 Something-Something V2 基准测试中获得了 91.1%77.2% 的 top-1 准确率。

代码 & 模型

性能

模型库

预训练模型
模型 训练数据 下载
InternVideo-MM-L-14 WebVid10M+Self-collected (14M) ckpt
VideoMAE-B UnlabeledHybrid (1M) ckpt
VideoMAE-L UnlabeledHybrid (1M) ckpt
VideoMAE-H UnlabeledHybrid (1M) ckpt
下游任务

分类

模型 微调数据 下载
VideoMAE-B K400 ckpt
VideoMAE-B K710 ckpt
VideoMAE-B SSv2 ckpt
VideoMAE-L K400 ckpt
VideoMAE-L K700 ckpt
VideoMAE-L SSv2 ckpt
VideoMAE-H K400 ckpt log
VideoMAE-H SSv1 ckpt log
VideoMAE-H HMDB51 ckpt_split1

检索

模型 训练数据 下载
InternVideo-MM-L-14 ActivityNet ckpt opt log
InternVideo-MM-L-14 DiDeMo ckpt opt log
InternVideo-MM-L-14 LSMDC ckpt opt log
InternVideo-MM-L-14 MSR-VTT ckpt opt log
InternVideo-MM-L-14 MSVD ckpt opt log
InternVideo-MM-L-14 VATEX ckpt opt log

视频问答

模型 微调数据 下载
InternVideo-MM-L-14 MSR-VTT ckpt
InternVideo-MM-L-14 MSVD ckpt
InternVideo-MM-L-14 TGIFQA ckpt

时空定位

模型 微调数据 下载
VideoMAE-H AVA-Kinetics ckpt

为了进一步提升我们的工作或者便于我们交流, 如果有空请填写问卷 (或者扫描下面的QR码).

survey_icon

引用

如果这项工作对您的研究有帮助,请考虑引用InternVideo和相关工作。

@article{wang2022internvideo,
  title={InternVideo: General Video Foundation Models via Generative and Discriminative Learning},
  author={Wang, Yi and Li, Kunchang and Li, Yizhuo and He, Yinan and Huang, Bingkun and Zhao, Zhiyu and Zhang, Hongjie and Xu, Jilan and Liu, Yi and Wang, Zun and Xing, Sen and Chen, Guo and Pan, Junting and Yu, Jiashuo and Wang, Yali and Wang, Limin and Qiao, Yu},
  journal={arXiv preprint arXiv:2212.03191},
  year={2022}
}

@article{wang2023videomae,
  title={VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking},
  author={Wang, Limin and Huang, Bingkun and Zhao, Zhiyu and Tong, Zhan and He, Yinan and Wang, Yi and Wang, Yali and Qiao, Yu},
  journal={arXiv preprint arXiv:2303.16727},
  year={2023}
}

@article{li2022uniformerv2,
  title={UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer},
  author={Li, Kunchang and Wang, Yali and He, Yinan and Li, Yizhuo and Wang, Yi and Wang, Limin and Qiao, Yu},
  journal={arXiv preprint arXiv:2211.09552},
  year={2022}
}

@article{li2023unmasked,
  title={Unmasked Teacher: Towards Training-Efficient Video Foundation Models},
  author={Li, Kunchang and Wang, Yali and Li, Yizhuo and Wang, Yi and He, Yinan and Wang, Limin and Qiao, Yu},
  journal={arXiv preprint arXiv:2303.16058},
  year={2023}
}