Skip to content

Latest commit

 

History

History
175 lines (128 loc) · 6.46 KB

README_zh-CN.md

File metadata and controls

175 lines (128 loc) · 6.46 KB

使用 头-脸-眼 多重线索的时空交互进行端到端的视频视线估计(多重线索视线估计)PWC

管一然*,陈卓光 *,曾文正曹治国肖阳

华中科技大学

*:同等贡献,†:通讯作者

English | 简体中文

IEEE SPL | arXiv

🥰我们的工作已被IEEE Signal Processing Letters接收!

✨Demo代码已经添加到本代码库中!

gaze360-demoyolov5-crowdhuman的启发,我们对给定的一段视频中的每个可检测的人物实现视线估计,并可视化出来。具体代码和细节详见MCGaze_demo

介绍

本代码库包含了论文“使用 头-脸-眼 多重线索的时空交互进行端到端的视频视线估计”的官方实现。

我们提出通过以端到端学习的方式捕获头-脸-眼之间的时空交互关系来提升视频视线估计的效果估计。在具有挑战性的 Gaze360 数据集上进行的实验验证了我们的方法的优越性。

实验结果及模型

在我们的工作中,我们在两种不同的数据集设置(Gaze360-setting 和 l2CS-setting(只考虑可检测到人脸的样本))中测试我们的模型,以便与以前的方法进行公平比较。

您可以从表内的链接下载模型的checkpoint。

数据集设置 骨干网络 平均角度误差-正面180 权重
Gaze360-setting R-50 10.74 谷歌网盘
l2cs-setting R-50 9.81 谷歌网盘

使用本代码库

准备你的python虚拟环境

  1. 创建一个新的conda环境

    conda create -n MCGaze python=3.9
    conda activate MCGaze
  2. 安装 Pytorch (推荐使用1.7.1 ), scipy, tqdm, pandas。

    pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
  3. 安装 MMDetection。

    • 请先安装MMCV-full,推荐使用1.4.8 版本。
      pip install mmcv-full==1.4.8 -f https://download.openmmlab.com/mmcv/dist/cu110/torch1.7.1/index.html
    • cd MCGaze
      pip install -v -e .

    如果你在复现的过程中遇到了其他的困难,欢迎联系我们。

准备你的数据集

  1. 官方网站下载Gaze360数据集。
  2. 下载train.txt和test.txt 在Gaze360 Github代码库.
  3. 用我们提供的代码来重新组织数据集排序。你应该首先检查并修改代码中的文件路径。
    • python tools/gaze360_img_reorganize.py
  4. 从这个链接处下载COCO格式的数据集标注, 并放置在对应位置。

Here is the right hierarchy of folder MCGaze/data below:

 └── data
     |
     ├── gaze360
     |   ├── train_rawframes
     |   |   ├── 1
     |   |   |   ├── 00000.png
     |   |   |   ├── 00001.png
     |   |   |   └── ...
     |   |   ├── 2
     |   |   └── ...
     |   |     
     |   ├── test_rawframes
     |   |   ├── 1
     |   |   |   ├── 00000.png
     |   |   |   ├── 00001.png
     |   |   |   └── ...
     |   |    
     |   ├── train.json
     |   └── test.json
     |
     ├── l2cs
     |   ├── train_rawframes
     |   |   ├── 1
     |   |   |   ├── 00000.png
     |   |   |   └── ...
     |   |   ├── 2
     |   |   └── ...
     |   |     
     |   ├── test_rawframes
     |   ├── train.json
     |   └── test.json
     └──

推理及验证

  • 运行下面的代码实现不同设定情况下的推理和结果验证。

如果你希望直接验证我们提供的预训练权重,请下载 checkpoints (我们建议您创建一个新文件夹“ckpts”并将文件放入其中)。

并且记得检查shell的文件路径是否正确。

Gaze360-setting
bash tools/test_gaze360.sh
l2cs-setting
bash tools/test_l2cs.sh

从0开始训练

  • 执行下面的代码您可以在不同的数据集设置下重新训练模型。
Gaze360-setting
bash tools/train_gaze360.sh
l2cs-setting
bash tools/train_l2cs.sh

致谢

此代码的灵感来自 MPEblink,TeViTMMDetection。感谢他们对计算机视觉社区的巨大贡献。

引用

如果 MCGaze 对您的研究有用或相关,请通过引用我们的论文来认可我们的贡献:

@article{guan2023end,
  title={End-to-End Video Gaze Estimation via Capturing Head-Face-Eye Spatial-Temporal Interaction Context},
  author={Guan, Yiran and Chen, Zhuoguang and Zeng, Wenzheng and Cao, Zhiguo and Xiao, Yang},
  journal={IEEE Signal Processing Letters},
  volume={30},
  pages={1687--1691},
  year={2023},
  publisher={IEEE}
}