Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 737 Bytes

210727 Is Object Detection Necessary for Human-Object Interaction Recognition.md

File metadata and controls

9 lines (5 loc) · 737 Bytes

https://arxiv.org/abs/2107.13083

Is Object Detection Necessary for Human-Object Interaction Recognition? (Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Zicheng Liu, Jenq-Neng Hwang)

디텍션 없이 human object interaction 모델링하기. 이미지와 텍스트를 임베딩한 다음 임베딩된 텍스트를 분류기에 사용하는 방식으로 접근했네요. 이미지-텍스트 임베딩에는 clip을 사용. 이전 소타를 압도했습니다.

디텍션 결과가 필요한 것이 아니라면 디텍션을 끼워넣어서 조합하는 접근을 채택할 필요가 없다는 증거가 쌓이고 있네요. 그리고 역시 clip은 최고의 장난감입니다.

#human-object-interaction #vision-language