포스트

프롬프트 반복으로 LLM 성능 향상 - Google 연구팀 논문

목차

  1. 개요
  2. 배경과 선행 연구
  3. 방법론
  4. 실험 셋업
  5. 주요 결과
  6. 한계와 디스커션
  7. 결론
  8. Reference

개요

Google Research의 Yaniv Leviathan, Matan Kalman, Yossi Matias가 발표한 논문은 입력 프롬프트를 단순히 두 번 이어붙이기만 해도 추론 모드를 사용하지 않는 LLM의 정확도가 광범위하게 향상된다는 사실을 제시한다.

논문 abstract는 다음과 같이 핵심을 요약한다. 입력 프롬프트를 반복하면 Gemini, GPT, Claude, DeepSeek 등 주요 모델 전반에서 생성 토큰 수나 응답 지연 시간을 늘리지 않고도 성능이 향상된다. 이 단순한 변형은 70개의 모델·벤치마크 조합 중 47개에서 통계적으로 유의한 성능 향상을 가져왔으며, 패배 사례는 0건이었다.

배경과 선행 연구

인과적 어텐션과 프리필 단계

LLM은 자동회귀 구조로 작동하여 과거 토큰만이 미래 토큰에 attention할 수 있다. 이 인과적 제약 때문에 동일한 정보라도 어떤 순서로 배치되느냐에 따라 모델이 추출하는 표현 품질이 달라진다. 예를 들어 “ " 형태의 프롬프트와 " " 형태의 프롬프트는 의미적으로 동일하지만 모델이 처리하는 방식이 다르다.

저자들은 프롬프트를 두 번 반복하면 두 번째 등장 시점에서 첫 번째 등장의 모든 토큰을 attention할 수 있어, 사실상 양방향 attention과 유사한 효과가 발생한다고 가설을 세운다. 중요한 점은 이 연산이 prefill 단계에서 발생한다는 것이다. prefill은 입력 토큰을 처리하는 병렬화 가능한 단계이므로, generation 단계의 지연 시간에는 영향을 거의 주지 않는다. chain-of-thought 같은 기법은 generation 단계 토큰을 늘려 지연을 증가시키는 반면, 프롬프트 반복은 입력 토큰만 두 배가 된다.

카테고리선행 연구본 연구와의 차이
사고 사슬Chain-of-Thought, “Think step by step”generation 단계 토큰 증가, 지연 발생
부분 반복Shaier 2024 (질문만 반복)효과 없음 보고 — 본 연구는 전체 프롬프트 반복
임베딩 중복Springer 2024 (텍스트 임베딩)임베딩 영역 — 본 연구는 일반 LLM 추론 영역으로 확장

질문만 반복한 Shaier의 선행 결과와 텍스트 임베딩에서 효과를 본 Springer의 결과 사이에서, 본 논문은 전체 프롬프트를 반복하는 단순한 변형이 일반 LLM 추론 정확도까지 끌어올린다는 점을 새롭게 보인다.

방법론

기본 변환과 변형

기본 변환은 단순한 문자열 이어붙이기다.

1
2
original_prompt = "다음 목록에서 25번째 항목을 찾아주세요: [...]"
repeated_prompt = original_prompt + original_prompt

논문은 세 가지 변형을 비교한다.

변형형식설명
Prompt Repetition<QUERY><QUERY>단순 이중 반복
Prompt Repetition (Verbose)사이에 안내 문구 삽입“다시 한 번 같은 질문을 합니다” 등의 텍스트 포함
Prompt Repetition ×3<QUERY><QUERY><QUERY>3회 반복

기본 변환만으로도 광범위한 향상이 관찰되었으며, ×3 반복은 일부 시나리오에서만 추가 이득을 보였다.

실험 셋업

테스트된 7개 모델은 다음과 같다.

제공자모델
GoogleGemini 2.0 Flash, Gemini 2.0 Flash Lite
OpenAIGPT-4o-mini, GPT-4o
AnthropicClaude 3 Haiku, Claude 3.7 Sonnet
DeepSeekDeepSeek V3

벤치마크는 표준 평가셋과 저자가 새로 도입한 두 개의 합성 태스크로 구성된다.

벤치마크종류평가 형식
ARC (Challenge)표준다지선다
OpenBookQA표준다지선다
GSM8K표준초등 수학 서술형
MMLU-Pro표준다지선다
MATH표준수학
NameIndex합성50개 항목 목록에서 25번째 이름 검색
MiddleMatch합성두 지정 원소 사이에 등장하는 항목 추출

총 70개의 모델·벤치마크 조합에 대해 단순 응답과 프롬프트 반복 응답을 McNemar 검정(p<0.1 유의수준)으로 비교했다.

주요 결과

전체 승률

논문이 보고하는 핵심 수치는 70개 조합에 대한 승패 통계다.

결과건수
Prompt Repetition 승47 / 70
Prompt Repetition 패0 / 70
무승부 또는 비유의23 / 70

47회 승, 0회 패라는 비대칭이 핵심 메시지다. 어떤 시나리오에서도 프롬프트 반복이 단순 응답보다 성능을 떨어뜨리지 않았다는 것은, 위험을 거의 부담하지 않으면서 다수 시나리오에서 정확도를 향상시키는 거의 무비용에 가까운 최적화라는 점을 시사한다.

참조와 목록 처리에서의 효과

가장 인상적인 사례는 합성 태스크 NameIndex에서 나타났다. Gemini 2.0 Flash-Lite의 NameIndex 정확도는 21.33%에서 97.33%로 급증했다. 이 태스크는 50개 이름 목록에서 25번째 항목을 찾는 작업으로, 인과적 어텐션 구조에서 모델이 25번째 위치까지 도달했을 때 이미 앞쪽 정보를 충분히 활용하지 못하는 현상이 두드러진다. 프롬프트가 두 번 반복되면 두 번째 시점에서 처음부터의 정보를 다시 한 번 본질적으로 양방향으로 처리할 수 있게 되어 검색 정확도가 폭증한다.

추론 모드에서의 효과 감소

추론 모드(reasoning mode)가 활성화된 모델에서는 효과가 크게 줄어든다. 저자가 보고한 통계는 5승 1패 22 무승부로, 사실상 중립에 가까운 결과다. 이는 RL로 추론 능력을 학습한 모델이 사용자의 요청을 자연스럽게 자신의 추론 과정에서 한 번 더 반복하는 패턴을 이미 갖추고 있기 때문이라고 저자는 해석한다. 프롬프트 반복은 generation 단계가 아닌 prefill 단계에서 동일한 효과를 병렬적으로 얻게 해 주는 것이 핵심 차별점이다.

한계와 디스커션

저자가 명시한 한계는 다음과 같다. 첫째, 추론 모드를 사용하는 LLM에서는 이득이 거의 없다. 둘째, Anthropic 모델 일부는 매우 긴 요청에서 prefill 처리 시간 증가로 인해 지연이 늘어날 수 있다. 셋째, 복잡한 추론이 핵심인 태스크(MATH, MMLU-Pro 일부)에서는 효과가 제한적이다.

디스커션에서 저자는 두 가지 시사점을 제시한다. 첫째, 추론 모델이 강화학습 과정에서 자연스럽게 사용자 요청을 반복해 처리하는 행동을 학습한다는 가설을 제시한다. 둘째, 프롬프트 반복은 이러한 직렬 반복을 병렬화 가능한 prefill 단계의 단순 변환으로 옮겨 놓는 것이며, generation 오버헤드 없이 attention 품질을 끌어올린다는 점에서 추론 모델 행동의 일부를 비추론 모델에서도 흉내낼 수 있는 손쉬운 패턴으로 본다.

결론

프롬프트 반복은 단 한 줄의 코드 변경으로 70개 조합 중 47개에서 성능을 향상시키고, 단 한 건의 패배도 없는 거의 무비용에 가까운 최적화 기법이다. NameIndex 태스크에서 21.33%에서 97.33%로 급증한 사례는 인과적 어텐션 구조의 약점을 prefill 단계의 단순 반복으로 우회할 수 있음을 보여준다. 추론 모드 모델에서는 이득이 줄어들지만, 비추론 LLM을 일상적으로 사용하는 시나리오에서는 가장 먼저 시도해 볼 만한 최적화로 평가된다.

Reference