저비트 양자화는 임베딩 모델을 '눈멀게' 만든다: jina-v5 코사인 상관 관측

게시 2026/04/18 업데이트 2026/04/18

By Juho

3 분읽는 시간

개요

임베딩 모델에 저비트 양자화를 적용할 때 발생하는 품질 저하는 생성 모델과 양상이 다르다. Han Xiao는 jina-v5 모델에 대해 서로 다른 양자화 수준에서의 코사인 상관 행렬을 플롯한 결과를 공유했다. 결론은 단순하다. 저비트 양자화는 임베딩 모델의 판별력(discriminative power)을 사실상 모두 소거한다.

관찰 내용

코사인 상관 행렬

jina-v5 모델의 임베딩 벡터 간 코사인 유사도를 행렬 형태로 시각화한 관찰이다. Q1, Q2, Q3 양자화에서는 행렬의 비대각(off-diagonal) 유사도가 매우 높게 나타났다. 이는 서로 다른 입력이 의미 공간에서 거의 구분되지 않음을 뜻한다. 관찰자의 표현대로라면 저비트 양자화는 모델을 “정말로 눈멀게 만든다”고 할 수 있다.

Q4 스위트 스팟

Q4 수준에서는 모델 품질이 수용 가능한 지점으로 회복된다. 비대각 유사도가 충분히 낮아져 판별력이 유지된다. Q4는 메모리와 품질 사이의 실용적인 스위트 스팟으로 볼 수 있다.

양자화 수준	판별력 상태
Q1 / Q2 / Q3	비대각 유사도 과도, 의미 공간이 뭉개짐
Q4	수용 가능한 품질 회복

의미와 시사점

임베딩 모델은 절대적 정확도가 아닌 상대적 거리가 성능을 결정한다. 모든 벡터가 서로 비슷해지면 MRR, nDCG 등 검색 지표 전반이 붕괴한다. 생성 모델에서 통용되는 Q2 / Q3 공격적 양자화 관행을 임베딩 모델에 그대로 적용해서는 안 된다. RAG 파이프라인에서 retriever를 공격적으로 양자화하면 LLM 품질과 무관하게 전체 시스템이 열화된다. 벡터 DB 운영 비용을 줄이려 할 때도 Q4가 사실상 하한선임을 염두에 두어야 한다.

결론

“임베딩 모델은 저비트 양자화에 생성 모델보다 훨씬 취약하다”는 경험칙이 구체적 시각화로 뒷받침된 사례다. jina-v5를 기준으로 Q4가 실용적 하한이며, 그 이하는 의미 공간이 사실상 붕괴한다. RAG와 검색 시스템의 retriever를 양자화할 때 이 관찰은 실무적 가이드라인이 된다.

Reference

Han Xiao (@hxiao) on X

AI Embedding Benchmark