V-JEPA 2.1: 비디오 자기지도학습에서 조밀한 특징을 끌어내다

게시 2026/06/18 업데이트 2026/06/21

By Juho

14 분읽는 시간

개요

V-JEPA 2.1은 Meta FAIR와 사라고사 대학 연구진이 발표한 비디오 자기지도학습(self-supervised learning) 프레임워크입니다. 이미지와 비디오 양쪽에서 고품질의 조밀한(dense) 표현을 학습하면서도 전역적(global) 장면 이해 능력을 유지하는 것을 목표로 합니다.

기존 V-JEPA 계열은 전역적인 비디오 이해와 모션 모델링에서 강력한 성능을 보였지만, 위치 추정이나 추적처럼 미세한 국소 구조를 추출하는 조밀한 과제에는 약했습니다. 반대로 DINO 계열은 고품질의 조밀한 특징을 만들어내지만 시간적 동역학을 학습하지 못합니다.

이 논문의 핵심 발견은 다음과 같습니다. “예측 손실이 마스킹된 영역에만 적용될 때는 고품질의 조밀한 시공간 특징이 안정적으로 나타나지 않는다”는 것입니다. 예측 손실을 마스킹되지 않은 가시(visible) 영역을 포함한 전체 입력으로 확장하면 저수준 표현이 크게 개선됩니다.

V-JEPA 2.1은 네 가지 요소를 결합합니다. 모든 토큰에 마스킹 기반 목적함수를 적용하는 조밀한 예측 손실, 인코더 계층 전반에 계층적으로 적용되는 심층 자기지도, 통합 이미지-비디오 학습을 지원하는 멀티모달 토크나이저, 그리고 효과적인 스케일링 전략입니다. 모델은 300M에서 2B 파라미터까지, 데이터셋은 1M에서 142M 이미지까지 확장되었습니다.

방법론

JEPA 사전 지식과 문제 진단

JEPA(Joint-Embedding Predictive Architecture)는 손상된(마스킹된) 비디오와 깨끗한 비디오를 모두 인코딩합니다. 인코더 E_θ는 잠재 표현을 생성하고, 예측기 P_φ는 손상된 표현을 깨끗한 표현 쪽으로 매핑합니다. 표현 붕괴(collapse)를 막기 위해 정지 그래디언트(stop-gradient)와 지수이동평균(EMA) 가중치를 사용한 암묵적 정규화를 적용합니다.

기존 V-JEPA의 목적함수는 마스킹된 토큰에만 손실을 적용합니다.

\[\mathcal{L}_{\text{predict}} = \frac{1}{|M|}\sum_{i \in M}\|P_\phi(E_\theta(x), \Delta_y)_i - \text{sg}(E_{\bar{\theta}}(y)_i)\|_1\]

여기서 M은 마스킹된 패치의 인덱스, sg는 정지 그래디언트 연산자, θ̄는 EMA 가중치를 의미합니다.

정성적 분석 결과 V-JEPA 2의 특징 맵은 “잡음이 많고 파편화되어(noisy and fragmented)” 있었습니다. 조밀한 과제 성능도 낮아서 ADE20K 시맨틱 분할에서 22.2 mIoU, NYUv2 깊이 추정에서 0.682 RMSE에 그쳤습니다. 연구진의 가설은 가시 영역의 문맥(context) 패치에 대한 감독이 없기 때문에 모델이 국소 정보 대신 전역 정보를 집계한다는 것입니다.

이를 해결하기 위해 문맥 토큰에 적용하는 문맥 자기지도 손실을 추가합니다.

\[\mathcal{L}_{\text{context}} = \frac{1}{|C|}\sum_{i \in C}\lambda_i\|P_\phi(E_\theta(x), \Delta_y)_i - \text{sg}(E_{\bar{\theta}}(y)_i)\|_1\]

여기서 C는 문맥 토큰의 인덱스, λ_i는 패치별 가중치입니다. 이 손실을 추가하자 ADE20K가 22.2에서 33.9 mIoU로, NYUv2가 0.682에서 0.473 RMSE로 개선되었습니다.

조밀한 예측 손실과 심층 자기지도

최종 모델은 두 손실을 합친 형태를 최소화합니다.

L_dense = L_predict + L_ctx

자명한(trivial) 해를 방지하기 위해, 마스킹된 영역에 가까운 패치일수록 문맥 손실에 더 큰 가중치를 두는 거리 기반 가중 방식을 사용합니다.

\[\lambda_i = \frac{\lambda}{\sqrt{\text{d}_{\text{min}}(i,M)}}\]

여기서 d_min은 가장 가까운 마스킹 토큰까지의 시공간 거리입니다. 이 가중 방식은 조밀한 과제 개선과 전역 이해 저하 사이의 균형을 맞춥니다.

심층 자기지도(Deep Self-Supervision)는 손실을 인코더 출력에만 적용하지 않고 여러 중간 계층에도 적용합니다. 인코더는 세 개의 중간 블록 출력과 최종 계층을 결합한 뒤 MLP로 융합하여 예측에 사용합니다. 두 손실 유형이 모두 네 개 수준에 걸쳐 적용됩니다.

심층 자기지도는 조밀한 성능을 높이면서 전역 이해 능력도 회복시켰습니다. SSv2 동작 인식이 문맥 손실만 사용했을 때의 62.5%에서 72.0%로 올랐고, ADE20K는 38.6 mIoU로 개선되었습니다.

멀티모달 토크나이저와 스케일링

VisionMix-163M 데이터셋은 142M의 큐레이션 이미지(LVD-142M)와 비디오 데이터셋을 결합합니다. 모션이 풍부한 콘텐츠 쪽으로 비디오 샘플링을 조정해 Something-Something-V2 가중치를 0.056에서 0.170으로, YT-1B를 0.188에서 0.720으로 높였습니다.

멀티모달 토크나이저는 이미지를 시간축으로 복제해 3D 입력으로 다루는 대신, 모달리티별 임베딩을 사용합니다. 비디오에는 3D 합성곱(16×16×2), 이미지에는 2D 합성곱(16×16)을 적용하고 학습 가능한 모달리티 토큰으로 처리를 조건화합니다. 이를 통해 정적인 외형 단서와 시간적 모션을 구분합니다.

모델은 ViT-L(300M)에서 ViT-G(2B)로 확장되어 모든 다운스트림 과제가 개선되었습니다. 해상도를 높인 두 번째 학습 단계인 쿨다운(cool-down)에서는 비디오 클립을 64프레임 384×384로, 이미지를 512×512로 확장했습니다.

실험 셋업은 다음과 같습니다. 초기 학습은 워밍업 후 일정 학습률로 135,000회 반복하고, 쿨다운은 학습률을 감쇠시키며 12,000회 추가 반복합니다. 모든 평가는 인코더를 고정(frozen)한 상태에서 진행하며, 조밀한 과제는 선형 프로빙, 전역 과제는 어텐티브 프로빙을 사용합니다.

주요 결과

예측·계획 과제

V-JEPA 2.1은 Ego4D 단기 객체 상호작용 예측에서 7.71 mAP를 달성하여 기존 최고 성능인 STAformer의 5.67 mAP를 큰 폭으로 앞섰습니다. EPIC-KITCHENS-100 동작 예측에서는 ViT-G가 40.8 Recall@5를 기록해 V-JEPA 2의 38.0보다 +2.8% 향상되었습니다.

로봇 팔 계획에서는 Franka Panda 로봇 기준 그래스핑 성공률이 V-JEPA 2의 60%에서 70%로 20% 개선되었고, 더 긴 롤아웃에서 픽앤플레이스 성공률이 80%에 도달했습니다. 내비게이션 계획에서는 NWM의 103.2초 대비 10.6초로 10배 빠른 계획이 가능했으며, Tartan Drive에서 5.687 ATE를 기록했습니다.

다음은 주요 예측·계획 과제 결과입니다.

과제	지표	V-JEPA 2.1
Ego4D 상호작용 예측	mAP	7.71
EPIC-KITCHENS-100	Recall@5	40.8
로봇 그래스핑	성공률	70%
Tartan Drive 내비게이션	ATE	5.687

조밀한 비전 과제와 분류

깊이 추정에서 V-JEPA 2.1은 NYUv2에서 0.307 RMSE를 달성해 DINOv3 ViT-7B(0.309)를 앞서는 최고 성능을 기록했고, KITTI에서는 2.461 RMSE를 보였습니다. 시맨틱 분할에서는 Pascal VOC12 85.0 mIoU, Cityscapes 73.5 mIoU, ADE20K 47.9 mIoU로 V-JEPA 2 대비 각각 큰 폭으로 개선되었습니다.

비디오 객체 분할에서는 DAVIS-17에서 69.0 J&F-Mean, YouTube-VOS에서 72.7 J&F-Mean을 패치 유사도 기반 비모수 라벨 전파로 달성했습니다. 분류 과제에서는 SSv2 동작 인식 77.7%(신규 최고 성능), ImageNet-1K 85.5%, Kinetics-400 87.7%, Diving-48 89.2%를 기록했습니다.

다음 표는 핵심 구성요소를 누적 적용했을 때의 어블레이션 결과입니다.

구성	IN1K	SSv2	NYU RMSE	ADE20K mIoU
V-JEPA 2 기준선	82.2	72.8	0.682	22.2
문맥 손실 추가	72.6	62.5	0.474	33.8
다중 수준 예측 추가	80.8	72.1	0.463	38.6
VisionMix 데이터셋 추가	81.6	72.6	0.415	41.4
모델 스케일링(ViT-G)	84.8	76.1	0.365	47.1
쿨다운 적용	85.5	77.7	0.307	47.9

ViT-G에서 증류(distillation)한 작은 모델도 크게 개선되어, ViT-L 증류 모델은 SSv2 76.5%, ADE20K 46.7 mIoU, NYUv2 0.340 RMSE를 달성했습니다.

한계와 주의사항

논문은 ADE20K와 Cityscapes의 시맨틱 분할 성능이 “최고의 이미지 인코더보다는 여전히 약간 뒤처진다”고 인정합니다. 그 원인으로 VisionMix 데이터셋에 매우 복잡하게 얽힌(cluttered) 장면이 상대적으로 적다는 점을 가설로 제시합니다.

또한 TemporalBench, TOMATO처럼 모션 중심의 비디오 질의응답 데이터셋에서는 V-JEPA 2보다 약간 낮은 성능을 보였습니다. 이는 모델이 외형 기반 인식 과제 쪽으로 최적화되었음을 시사합니다. 문맥 손실의 가중치 λ는 조밀한 과제 개선과 전역 이해 저하 사이의 상충을 직접 조절하므로, 점진적 워밍업과 거리 기반 가중을 통한 신중한 균형이 필요합니다.

결론

V-JEPA 2.1은 조밀한 표현과 전역 표현이 상호 배타적이지 않음을 보여주며 자기지도학습의 최고 성능을 끌어올립니다. 핵심 통찰은 마스킹된 영역만이 아니라 모든 토큰을 감독함으로써 공간적 그라운딩(spatial grounding)이 가능해진다는 것입니다.

이 연구는 고정 백본 기준 최고의 깊이 추정(NYUv2 0.307 RMSE), 경쟁력 있는 동작 예측, 크게 향상된 로봇 능력 등 여러 성과를 달성했습니다. 연구진은 코드와 모델을 공개하여 물리 세계 모델링을 위한 강력한 표현 학습 연구를 촉진하고자 합니다.

Reference

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning (arXiv)

AI Benchmark Embedding