受gaze360-demo和yolov5-crowdhuman的启发,我们对给定的一段视频中的每个可检测的人物实现视线估计,并可视化出来。具体代码和细节详见MCGaze_demo
。
本代码库包含了论文“使用 头-脸-眼 多重线索的时空交互进行端到端的视频视线估计”的官方实现。
我们提出通过以端到端学习的方式捕获头-脸-眼之间的时空交互关系来提升视频视线估计的效果估计。在具有挑战性的 Gaze360 数据集上进行的实验验证了我们的方法的优越性。
在我们的工作中,我们在两种不同的数据集设置(Gaze360-setting 和 l2CS-setting(只考虑可检测到人脸的样本))中测试我们的模型,以便与以前的方法进行公平比较。
您可以从表内的链接下载模型的checkpoint。
数据集设置 | 骨干网络 | 平均角度误差-正面180 | 权重 |
---|---|---|---|
Gaze360-setting | R-50 | 10.74 | 谷歌网盘 |
l2cs-setting | R-50 | 9.81 | 谷歌网盘 |
-
创建一个新的conda环境
conda create -n MCGaze python=3.9 conda activate MCGaze
-
安装 Pytorch (推荐使用1.7.1 ), scipy, tqdm, pandas。
pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
-
安装 MMDetection。
- 请先安装MMCV-full,推荐使用1.4.8 版本。
pip install mmcv-full==1.4.8 -f https://download.openmmlab.com/mmcv/dist/cu110/torch1.7.1/index.html
-
cd MCGaze pip install -v -e .
如果你在复现的过程中遇到了其他的困难,欢迎联系我们。
- 请先安装MMCV-full,推荐使用1.4.8 版本。
- 从官方网站下载Gaze360数据集。
- 下载train.txt和test.txt 在Gaze360 Github代码库.
- 用我们提供的代码来重新组织数据集排序。你应该首先检查并修改代码中的文件路径。
-
python tools/gaze360_img_reorganize.py
-
- 从这个链接处下载COCO格式的数据集标注, 并放置在对应位置。
Here is the right hierarchy of folder MCGaze/data
below:
└── data
|
├── gaze360
| ├── train_rawframes
| | ├── 1
| | | ├── 00000.png
| | | ├── 00001.png
| | | └── ...
| | ├── 2
| | └── ...
| |
| ├── test_rawframes
| | ├── 1
| | | ├── 00000.png
| | | ├── 00001.png
| | | └── ...
| |
| ├── train.json
| └── test.json
|
├── l2cs
| ├── train_rawframes
| | ├── 1
| | | ├── 00000.png
| | | └── ...
| | ├── 2
| | └── ...
| |
| ├── test_rawframes
| ├── train.json
| └── test.json
└──
- 运行下面的代码实现不同设定情况下的推理和结果验证。
如果你希望直接验证我们提供的预训练权重,请下载 checkpoints (我们建议您创建一个新文件夹“ckpts”并将文件放入其中)。
并且记得检查shell的文件路径是否正确。
bash tools/test_gaze360.sh
bash tools/test_l2cs.sh
- 执行下面的代码您可以在不同的数据集设置下重新训练模型。
bash tools/train_gaze360.sh
bash tools/train_l2cs.sh
此代码的灵感来自 MPEblink,TeViT 和 MMDetection。感谢他们对计算机视觉社区的巨大贡献。
如果 MCGaze 对您的研究有用或相关,请通过引用我们的论文来认可我们的贡献:
@article{guan2023end,
title={End-to-End Video Gaze Estimation via Capturing Head-Face-Eye Spatial-Temporal Interaction Context},
author={Guan, Yiran and Chen, Zhuoguang and Zeng, Wenzheng and Cao, Zhiguo and Xiao, Yang},
journal={IEEE Signal Processing Letters},
volume={30},
pages={1687--1691},
year={2023},
publisher={IEEE}
}