포스트

Jina Embeddings v5 Omni 텍스트 이미지 오디오 비디오를 하나의 Elasticsearch 인덱스로

목차

  1. 개요
  2. 모델 라인업과 아키텍처
  3. Elasticsearch 통합
  4. 성능 벤치마크
  5. 강점과 한계
  6. 결론
  7. Reference

개요

Elastic과 Jina AI가 공동 출시한 jina-embeddings-v5-omni는 텍스트, 이미지, 오디오, 비디오를 하나의 Elasticsearch 인덱스에서 통합 검색할 수 있는 임베딩 모델이다. “가장 작으면서도 시각, 음성, 인쇄, 비디오를 모두 지원하는 임베딩 모델”이라는 표현이 모델의 지향을 그대로 보여준다. small 버전은 700M 파라미터의 기본 모델에 확장 모듈을 결합하고, nano 버전은 266M 파라미터로 더 작다. 약 100개 언어를 지원하고, MMTEB 벤치마크에서 같은 크기 범주 최고 성능을 보고했다. 서로 다른 미디어를 별도 인덱스에 분리해 관리하던 기존 검색 파이프라인을 단일 필드로 합칠 수 있게 된 것이 가장 큰 변화다.

모델 라인업과 아키텍처

omni 라인업은 두 가지 크기로 제공된다. small은 더 높은 정확도가 필요한 경우, nano는 엣지 배포나 비용 효율이 우선인 경우에 적합하다.

공통 백본과 미디어별 인코더

핵심 설계는 jina-embeddings-v5-text 백본을 그대로 유지하면서 미디어별 인코더를 모듈로 붙이는 것이다. 이미지 인코더는 SigLIP2를, 오디오 인코더는 Whisper-large-v3를 사용한다. 비디오는 별도의 인코더 대신 프레임 샘플링을 거쳐 이미지 경로로 처리된다. 이 구조에서 새로 학습된 부분은 크로스미디어 프로젝터의 가중치뿐이다. 이미 검증된 단일 미디어 인코더들을 그대로 활용하면서 미디어 간 정렬만 학습하는 방식이라 학습 비용이 크게 줄어들었다.

미디어별 전처리 규칙

각 미디어는 모델 입력 단계에서 정해진 규칙으로 정규화된다.

미디어전처리 방식
이미지262,144에서 3,072,000 픽셀 범위로 정규화, 28x28 패치 분할
오디오30초 세그먼트로 분할, 40ms당 1토큰, 세그먼트당 750토큰
비디오최대 32프레임 추출 후 이미지와 동일 처리

이 규칙은 입력 데이터 분포를 일정하게 유지해 미디어가 다르더라도 동일 임베딩 공간으로 자연스럽게 정렬되도록 설계되어 있다.

Elasticsearch 통합

omni 모델의 진짜 가치는 모델 자체보다 Elasticsearch 통합 방식에서 드러난다. 별도의 추론 파이프라인을 직접 구축할 필요가 없다.

semantic_text 필드 구성

필드 타입을 semantic_text로 지정하고 inference_id에 jina-embeddings-v5-omni-small 또는 nano를 입력하면 된다. 텍스트가 아닌 미디어는 Base64 문자열로 변환해 같은 필드에 그대로 넣는다. 쿼리도 동일한 방식으로 처리되므로, 텍스트 쿼리로 이미지를 찾거나 이미지 쿼리로 비디오를 찾는 교차 미디어 검색이 자연스럽게 동작한다. 실전 사례에서 두 소설의 영문 텍스트와 프랑스어 번역본의 유사도가 0.90 이상으로 측정됐고, “cat” 영문 쿼리가 영화 예고편 내 고양이 장면을 0.1634의 최고 점수로 식별했다. 일본어 쿼리 “マカロニチーズ”가 맥앤치즈 제품 패키지를 0.3487의 점수로 영어 쿼리보다 정확히 찾아낸 사례도 보고됐다.

LoRA 어댑터로 작업 전환

omni 모델은 LoRA 어댑터를 통해 작업 유형을 전환한다. 선택 가능한 작업은 Retrieval, Classification, Clustering, Semantic Similarity 네 가지다. 어댑터만 교체하면 동일 백본이 검색용, 분류용, 클러스터링용으로 동작하므로 워크로드별 모델을 따로 운영할 필요가 없다. 인덱스 단계에서 한 번만 임베딩을 만들고, 쿼리 시점에 작업에 맞는 어댑터를 선택하는 운영 패턴이 가능하다.

성능 벤치마크

벤치마크 결과는 omni 모델이 자기 크기보다 훨씬 큰 모델들과 직접 경쟁한다는 점을 보여준다.

영역결과
텍스트(MMTEB)동일 크기 범주 최고 성능
Visual Semantic Similarity3배 큰 모델과 경쟁
Visual Document Retrieval(ViDoRe)7B에서 10B 모델과 경쟁력
오디오(MAEB)3배 큰 모델들과 경쟁
Video Charades-STA55.57점
Video MomentSeeker58.93점

Charades-STA에서 ByteDance Seed 1.6의 29.30점과 비교하면 비디오 영역의 격차가 두드러진다. PDF, 스캔 문서 검색, 비디오 시간 위치 파악, 이미지 장면 분류 같은 실전 작업에서 즉시 활용 가능한 수준이다.

강점과 한계

강점은 다국어 음성 검색, PDF나 스캔 문서 검색, 비디오 내 특정 순간 위치 파악, 이미지 장면 분류처럼 실무에서 흔히 요구되는 시나리오에 분명하게 맞춰져 있다. 컴팩트한 크기 덕분에 엣지 컴퓨팅이나 로컬 배포도 가능하다. 한편 한계도 존재한다. 긴 비디오는 32프레임만 추출되므로 그 사이의 정보가 손실된다. 이미지를 쿼리로 이미지를 찾는 image-to-image 검색은 지원되지 않는다. 혼합 미디어를 하나의 입력으로 결합해 임베딩하는 기능도 제공되지 않는다. 라이선스는 CC-BY-NC-4.0이라 비상업적 사용은 자유롭지만 상업 용도는 Elastic 영업팀 문의가 필요하다. 모델은 Elastic Inference Service, Jina API, HuggingFace 직접 다운로드 채널로 제공된다.

결론

jina-embeddings-v5-omni는 텍스트, 이미지, 오디오, 비디오를 하나의 임베딩 공간으로 합치고 Elasticsearch의 semantic_text 필드에 그대로 흘려보낼 수 있게 한 모델이다. 이미 검증된 SigLIP2와 Whisper-large-v3를 인코더로 끌어와 학습 비용을 줄이고, 크로스미디어 프로젝터만 새로 학습하는 절약적 설계가 인상적이다. 700M에서 266M 사이의 작은 크기로 3배 이상 큰 모델과 경쟁하는 벤치마크 결과는 실무 도입의 진입 장벽을 크게 낮춘다. 미디어별 인덱스를 따로 운영하던 검색 시스템을 단일 인덱스로 합치는 일이 가능해진 셈이다.

Reference