You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
invaraiance-based (contrastive) pre-training은 hand-crafted view-based augmentation에 의존하기에 결국 특정 down-stream task에 적합한 방식이다. (ex. 이미지 분류)
masked pre-training은 상기한 augmentaiton의 영향을 받지 않기에 다른 modality로의 확장이 용이하지만 (data2vec)
reconstruction하는 decoder의 영향으로 더 낮은 수준의 semantic을 갖는 representation을 추출하는 것으로 보인다. (MAE, MSN)
I-JEPA는 extra prior knowledge 없이도 높은 semantic 정보를 갖는 representation 추출이 가능하다. how?
github : https://github.com/facebookresearch/ijepa
1. Introduction
invaraiance-based (contrastive) pre-training은 hand-crafted view-based augmentation에 의존하기에 결국 특정 down-stream task에 적합한 방식이다. (ex. 이미지 분류)
masked pre-training은 상기한 augmentaiton의 영향을 받지 않기에 다른 modality로의 확장이 용이하지만 (data2vec)
reconstruction하는 decoder의 영향으로 더 낮은 수준의 semantic을 갖는 representation을 추출하는 것으로 보인다. (MAE, MSN)
I-JEPA는 extra prior knowledge 없이도 높은 semantic 정보를 갖는 representation 추출이 가능하다. how?
2. Background
이미지 관점에서 각 architecture 설명
3. Method
Targets
Context
Prediction
Loss
Evaluation
Predictor Visualization
predictor가 각 mask token의 위치에 적절한 latent를 예측하고 있는지 (JEPA 구조에서 z에 condition된 예측이 가능한지)
meta의 RCDM framework로 시각화한 결과입니다. (3,4,5,6 column은 서로 다른 seed 결과)
Ablations
MAE와 동일하게 pixel을 target으로 할 경우, 심각한 성능 저하
저자들은 representation을 target함으로써 pixel detail에 의존적이지 않은 abstract prediction이 주효했을 것이라 추측
저자들은 target과 겹치는 context block을 제거해준 것이 주효했을 것이라 추측
The text was updated successfully, but these errors were encountered: