使用头-脸-眼多重线索的时空交互进行端到端的视频视线估计（多重线索视线估计）

管一然*，陈卓光 *，曾文正^†，曹治国，肖阳^†

华中科技大学

*：同等贡献，†：通讯作者

English | 简体中文

IEEE SPL | arXiv

🥰我们的工作已被IEEE Signal Processing Letters接收！

✨Demo代码已经添加到本代码库中!

受gaze360-demo和yolov5-crowdhuman的启发，我们对给定的一段视频中的每个可检测的人物实现视线估计，并可视化出来。具体代码和细节详见MCGaze_demo。

介绍

本代码库包含了论文“使用头-脸-眼多重线索的时空交互进行端到端的视频视线估计”的官方实现。

我们提出通过以端到端学习的方式捕获头-脸-眼之间的时空交互关系来提升视频视线估计的效果估计。在具有挑战性的 Gaze360 数据集上进行的实验验证了我们的方法的优越性。

实验结果及模型

在我们的工作中，我们在两种不同的数据集设置（Gaze360-setting 和 l2CS-setting（只考虑可检测到人脸的样本））中测试我们的模型，以便与以前的方法进行公平比较。

您可以从表内的链接下载模型的checkpoint。

数据集设置	骨干网络	平均角度误差-正面180	权重
Gaze360-setting	R-50	10.74	谷歌网盘
l2cs-setting	R-50	9.81	谷歌网盘

使用本代码库

准备你的python虚拟环境

创建一个新的conda环境

conda create -n MCGaze python=3.9
conda activate MCGaze

安装 Pytorch (推荐使用1.7.1 ), scipy, tqdm, pandas。

pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html

安装 MMDetection。
- 请先安装MMCV-full，推荐使用1.4.8 版本。
```
pip install mmcv-full==1.4.8 -f https://download.openmmlab.com/mmcv/dist/cu110/torch1.7.1/index.html
```
- ```
cd MCGaze
pip install -v -e .
```
如果你在复现的过程中遇到了其他的困难，欢迎联系我们。

准备你的数据集

从官方网站下载Gaze360数据集。
下载train.txt和test.txt 在Gaze360 Github代码库.
用我们提供的代码来重新组织数据集排序。你应该首先检查并修改代码中的文件路径。
- ```
python tools/gaze360_img_reorganize.py
```
从这个链接处下载COCO格式的数据集标注, 并放置在对应位置。

Here is the right hierarchy of folder MCGaze/data below:

 └── data
     |
     ├── gaze360
     |   ├── train_rawframes
     |   |   ├── 1
     |   |   |   ├── 00000.png
     |   |   |   ├── 00001.png
     |   |   |   └── ...
     |   |   ├── 2
     |   |   └── ...
     |   |     
     |   ├── test_rawframes
     |   |   ├── 1
     |   |   |   ├── 00000.png
     |   |   |   ├── 00001.png
     |   |   |   └── ...
     |   |    
     |   ├── train.json
     |   └── test.json
     |
     ├── l2cs
     |   ├── train_rawframes
     |   |   ├── 1
     |   |   |   ├── 00000.png
     |   |   |   └── ...
     |   |   ├── 2
     |   |   └── ...
     |   |     
     |   ├── test_rawframes
     |   ├── train.json
     |   └── test.json
     └──

推理及验证

运行下面的代码实现不同设定情况下的推理和结果验证。

如果你希望直接验证我们提供的预训练权重，请下载 checkpoints (我们建议您创建一个新文件夹“ckpts”并将文件放入其中)。

并且记得检查shell的文件路径是否正确。

Gaze360-setting

bash tools/test_gaze360.sh

l2cs-setting

bash tools/test_l2cs.sh

从0开始训练

执行下面的代码您可以在不同的数据集设置下重新训练模型。

Gaze360-setting

bash tools/train_gaze360.sh

l2cs-setting

bash tools/train_l2cs.sh

致谢

此代码的灵感来自 MPEblink,TeViT 和 MMDetection。感谢他们对计算机视觉社区的巨大贡献。

引用

如果 MCGaze 对您的研究有用或相关，请通过引用我们的论文来认可我们的贡献：

@article{guan2023end,
  title={End-to-End Video Gaze Estimation via Capturing Head-Face-Eye Spatial-Temporal Interaction Context},
  author={Guan, Yiran and Chen, Zhuoguang and Zeng, Wenzheng and Cao, Zhiguo and Xiao, Yang},
  journal={IEEE Signal Processing Letters},
  volume={30},
  pages={1687--1691},
  year={2023},
  publisher={IEEE}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh-CN.md

README_zh-CN.md

使用头-脸-眼多重线索的时空交互进行端到端的视频视线估计（多重线索视线估计）

🥰我们的工作已被IEEE Signal Processing Letters接收！

✨Demo代码已经添加到本代码库中!

介绍

实验结果及模型

使用本代码库

准备你的python虚拟环境

准备你的数据集

推理及验证

Gaze360-setting

l2cs-setting

从0开始训练

Gaze360-setting

l2cs-setting

致谢

引用

Files

README_zh-CN.md

Latest commit

History

README_zh-CN.md

File metadata and controls

使用 头-脸-眼 多重线索的时空交互进行端到端的视频视线估计（多重线索视线估计）

🥰我们的工作已被IEEE Signal Processing Letters接收！

✨Demo代码已经添加到本代码库中!

介绍

实验结果及模型

使用本代码库

准备你的python虚拟环境

准备你的数据集

推理及验证

Gaze360-setting

l2cs-setting

从0开始训练

Gaze360-setting

l2cs-setting

致谢

引用

使用头-脸-眼多重线索的时空交互进行端到端的视频视线估计（多重线索视线估计）