vision transformer 개선
이제 제목만 봐도 느낌이 오시죠?
CvT: Introducing Convolutions to Vision Transformers (
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding (
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification (
Going deeper with Image Transformers (
깊은 비전 트랜스포머. 0에 가까운 채널별 scale을 달아줘서 초기에 identity처럼 거동하게 만드는 것과 classification 토큰을 네트워크 후반에 추가하는 개선. 이미지넷 86.3%
nerf 개선
MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo (
매 scene마다 학습시켜야 한다는 제약 풀기. ibrnet의 후속이 벌써 등장.
GNeRF: GAN-based Neural Radiance Field without Posed Camera (
정확한 카메라 포즈에 대한 제약 풀기
NeMI: Unifying Neural Radiance Fields with Multiplane Images for Novel View Synthesis (
사실 nerf 관련 논문은 이제 너무 많다. 내가 3d에 대한 전문성도 없어서 좀 더 힘들기도 하고. nerf 관련 논문만 파도 버거울 지경. 물론 그래야할 필요가 있는 것은 아니지만.
트랜스포머로 트래킹하기
트래킹 알못인데 트랜스포머로 트래킹을 하는 논문들이 쭈루룩 나온 게 신기해서 모아봤다.
Transformer Tracking (
TransCenter: Transformers with Dense Queries for Multiple-Object Tracking (
Looking Beyond Two Frames: End-to-End Multi-Object Tracking Using Spatial and Temporal Transformers (
Spatial-Temporal Graph Transformer for Multiple Object Tracking (
Learning Spatio-Temporal Transformer for Visual Tracking (
그 외 트랜스포머로 뭔가 해보기
TFPose: Direct Human Pose Estimation with Transformers (
HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval (
ViViT: A Video Vision Transformer (
Drop the GAN: In Defense of Patches Nearest Neighbors as Single Image Generative Models (
패치 기반 방법으로 single image generation. singan 어쩌지.
Few-shot Semantic Image Synthesis Using StyleGAN Prior (
Labels4Free: Unsupervised Segmentation using StyleGAN (
Dual Contrastive Loss and Attention for GANs (
contrastive loss로 gan loss를 구성하고 self attention과 real vs real/fake 이미지 사이의 attention을 첨가해 stylegan2를 개선.
StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery (
요즘 자주 나오는 stylegan과 clip의 결합. clip은 이제 텍스트와 이미지를 이어주는 과제들에 대한 중요한 백본.
그 외
AlignMix: Improving representation by interpolating aligned features (
autoencoding으로 mix하기. resnet-50으로 81.17이 나온 건 흥미롭긴 하네요.