포스트

SMART: 단일 벡터 임베딩 모델 안에 숨어 있는 멀티 벡터 검색 능력 끌어내기

목차

  1. 개요
  2. 방법론
  3. 주요 결과
  4. 한계와 주의사항
  5. 결론
  6. Reference

개요

“Your Embedding Model is SMARTer Than You Think”는 2026년 5월 arXiv에 공개된 정보 검색 분야 논문이다. 저자는 Jianrui Zhang, Hyun Jung Lee, Sukanta Ganguly, Tae-Eui Kam, Donghyun Kim, Yong Jae Lee로 구성되어 있다.

논문의 핵심 주장은 단순하다. 표준 단일 벡터 임베딩 모델은 학습 과정에서 풀링되지 않은 히든 스테이트(hidden state) 안에 멀티 벡터 검색에 필요한 지역 정보를 이미 갖춘다는 것이다. 즉, 별도의 멀티 벡터 모델을 학습할 필요 없이, 기존 모델의 히든 스테이트를 그대로 활용해 후기 상호작용(late-interaction) 검색을 수행할 수 있다는 발견이다.

이 통찰을 바탕으로 SMART(Single-to-Multi Adaptation for Retrieval Transformers) 프레임워크가 제안된다. SMART는 동결된 단일 벡터 모델에 추론 시점의 플러그 앤 플레이 강화로 적용될 수도 있고, 가벼운 후속 학습으로 추가 성능을 끌어올릴 수도 있다.

방법론

핵심 통찰

단일 벡터 모델은 멀티모달 시퀀스를 보통 <eot> 토큰 위치의 하나의 풀링된 임베딩으로 압축한다. 이 압축은 지역 증거가 필요한 세밀한 검색 작업에서 정보 병목 현상을 일으킨다. 저자들은 대조 학습(contrastive training) 중 발생하는 그래디언트 흐름이 히든 스테이트의 검색 기하학을 암묵적으로 형성한다고 주장한다. 즉, 풀링 출력에만 손실을 적용해도 히든 스테이트는 토큰 단위 매칭에 적합한 형태로 자연스럽게 정렬된다는 것이다.

이를 검증하기 위해 통제된 토이 벤치마크(Local Binding Task)를 도입했다. 결과는 다음과 같다.

방식정확도
단일 벡터만 사용31.9%
후기 상호작용만 사용56.8%

후기 상호작용 방식이 단일 벡터 대비 약 25%포인트 높은 정확도를 보였다. 이는 풀링되지 않은 히든 스테이트가 풀링 과정에서 손실되는 지역 증거를 유지함을 시사한다.

SMART 프레임워크

SMART는 두 가지 모드로 작동한다.

추론 전용(플러그 앤 플레이) 모드에서는 마지막 레이어의 비풀링 히든 스테이트에 MaxSim 후기 상호작용을 적용한다. 이를 원래의 단일 벡터 점수와 결합한 하이브리드 점수를 사용한다. 하이브리드 스코어 공식은 다음과 같다.

1
s_hybrid(q,c) = s_single(q,c) + (1/|M_q|) * sum_{i in M_q} max_{j in M_c} h_q,i^L * h_c,j^L

여기서 h는 L2 정규화된 마지막 레이어 히든 스테이트이며, M은 유효 토큰 인덱스를 의미한다. 학습이 전혀 필요 없고 비용 없이 성능을 끌어올리는 강화 방식이다.

후속 학습(post-training) 모드는 두 가지로 나뉜다. 경량 어댑터 방식은 동결된 히든 스테이트 위에 선형 프로젝션과 레이어 정규화만 추가한다. 전체 파인튜닝 방식은 풀링 손실과 토큰 단위 손실을 결합한 하이브리드 목적함수를 사용한다.

레이어별 분석에 따르면 마지막 레이어 풀링 앵커와 함께 20층 이상의 히든 스테이트를 사용하면 거의 정점에 가까운 성능에 도달한다. 이는 깊은 레이어에 이미 충분한 지역 정보가 담겨 있음을 의미한다.

주요 결과

평가는 멀티모달 임베딩 벤치마크인 MMEB-V2에서 수행되었다. 이 벤치마크는 이미지 검색 12개, 시각 문서 검색 10개(VDRv1/v2), 비디오 검색 6개 태스크를 포함한다. 학습 데이터는 시각 문서 검색용 Colpali 데이터셋을 사용했으며, 비교 베이스라인으로는 Qwen3-VL-Embedding, VLM2Vec, GME, Colpali, jina-embeddings-v4를 활용했다.

추론 단독 성능

학습 없이 SMART를 적용한 경우의 성능 향상은 다음과 같다.

모델평균 향상
VLM2Vec-V2.0+2.54%
GME-2B+1.0%
Qwen3-VL-Embed-8B (SoTA)+0.51%

저자들은 “이미지, 시각 문서, 비디오 검색 태스크 전반에 걸쳐 모든 테스트한 백본에서 일관된 성능 향상”이 관찰되었다고 보고한다. 이미 SoTA인 8B 모델에서도 추가 향상이 나타났다는 점이 특히 주목할 만하다.

경량 어댑터와 학습 효율

Qwen3-VL-Embedding-2B에 SMART 어댑터를 적용한 결과는 시각 문서 검색에서 81.25%를 기록했다. 이는 SoTA 멀티 벡터 모델인 jina-embeddings-v4의 80.91%를 약 2시간의 학습만으로 능가한 결과다.

학습 효율 비교는 다음과 같다.

구성학습 시간시각 문서 성능
LamRA-Single6.5시간-
LamRA-Single-Convert (SMART)9.5시간79.10%
LamRA-Multi (베이스라인)12시간78.31%

처음부터 멀티 벡터 모델을 학습하는 것 대비 약 20.8%의 학습 시간을 절약하면서도 더 높은 성능을 달성했다. 정성적 분석에서는 SMART가 풀링 압축에 의해 가려진 세밀한 디테일, 예컨대 특정 차트 범례나 건축적 특징을 복원해 단일 벡터 모델이 전반적으로 그럴듯하지만 잘못된 후보를 고르는 경우를 교정한다는 점이 시각화로 확인되었다.

한계와 주의사항

논문이 명시한 한계는 세 가지다. 첫째, 코퍼스 단위의 밀집 검색에 초점이 맞춰져 있어 분류나 VQA 같은 태스크에는 도움이 되지 않는다. 둘째, 연산 자원 제약으로 인해 커스텀 모델은 시각 문서 하위 셋에서만 학습되었다. 셋째, 본질적으로 추론 시점의 플러그 앤 플레이 강화를 위해 설계되었으며, 학습을 추가하려면 별도 컴퓨트가 필요하다.

이는 SMART가 모든 검색 시나리오의 만능 해법이 아니라, 풀링이 정보 병목으로 작용하는 멀티모달 밀집 검색에 특화된 방법임을 시사한다.

결론

SMART는 단일 벡터 임베딩 모델 안에 멀티 벡터 검색 능력이 이미 내재되어 있다는 통찰을 실증한 연구다. 대조 학습이 그래디언트 흐름을 통해 히든 스테이트를 토큰 단위 매칭에 적합한 형태로 정렬하기 때문에, 마지막 레이어 히든 스테이트에 MaxSim 후기 상호작용만 적용해도 의미 있는 성능 향상을 얻을 수 있다. 추론 시점에서는 비용 없이 +0.5%에서 +2.5%의 평균 향상을, 경량 어댑터로는 약 2시간 학습으로 SoTA 멀티 벡터 모델을 뛰어넘는 성능을 보여 주었다. 이 결과는 멀티 벡터 모델을 처음부터 학습하는 비용을 줄이고, 기존 단일 벡터 모델의 가치를 재발견하게 만든다는 점에서 검색 시스템 설계자에게 실용적 함의를 제공한다. 코드와 가중치는 HanSolo9682/SMART 저장소에서 공개되어 있다.

Reference