포스트

LoPE 무의미한 Lorem Ipsum이 LLM 수학 추론을 끌어올리는 메커니즘

목차

  1. 개요
  2. 영점 이점 문제
  3. LoPE 방법론
  4. 실험 결과
  5. 한계와 주의사항
  6. 결론
  7. Reference

개요

워싱턴 대학교 연구진이 발표한 “Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration” 논문은 검증 가능한 보상을 사용하는 강화학습(RLVR), 특히 GRPO 훈련의 고질적인 한계를 다룬다. 어려운 수학 문제에서 샘플링된 모든 답변이 틀리면 그룹 상대 이점이 0으로 무너지고, 모델은 그 문제로부터 학습 신호를 얻지 못한다. 저자들은 실패한 프롬프트 앞에 무작위 Lorem Ipsum 문자열을 덧붙이는 단순한 기법, 즉 LoPE(Lorem Perturbation for Exploration)를 제안한다. Qwen3-4B 기준 평균 4.62점, Qwen2.5-Math-7B 기준 6.20점의 절대 성능 향상이 관찰됐고, 다른 방법들이 모두 실패한 어려운 문제 50개를 LoPE만이 풀어냈다. 프롬프트 공간에 직접 잡음을 주입해 모델의 출력 분포를 흔드는 접근이 핵심이다.

영점 이점 문제

GRPO는 같은 질문에 대해 여러 응답을 샘플링한 뒤, 그룹 내 보상의 상대값으로 이점을 계산한다. 모든 응답이 동일하게 0점을 받으면 표준편차가 0이 되고, 정규화된 이점도 0이 된다. 이렇게 되면 어려운 문제는 학습 그래디언트에서 사실상 사라진다. 샘플링 예산을 늘리는 단순 해법은 정책이 만들어내는 분포 자체가 정답을 포함하지 못하는 경우에는 도움이 되지 않는다. 저자들은 문제의 근원이 탐색 부족이라고 보고, 정책을 그대로 둔 채 입력 측 분포를 흔들어 새로운 추론 경로를 열어주는 방향을 택한다.

LoPE 방법론

LoPE는 실패한 그룹에 한해서만 발동되는 재샘플링 절차다. 정상적으로 정답을 만든 그룹은 표준 GRPO와 동일하게 학습된다.

Lorem Ipsum 섭동

실패한 질문이 발견되면, 모델은 63개 라틴어 어휘에서 무작위로 뽑은 Lorem Ipsum 시퀀스를 원래 프롬프트 앞에 붙인 형태로 다시 응답을 생성한다. 새로 만들어진 응답 중 정답이 있으면 기존 실패 응답들과 섞어 그룹 크기 G를 유지한다. 중요한 점은 학습 단계에서 정책에 입력되는 프롬프트는 섭동된 프롬프트가 아니라 원래 프롬프트라는 점이다. 모델 분포가 Lorem Ipsum 쪽으로 끌려가지 않도록 중요도 샘플링 보정이 함께 적용된다. KL 발산 패널티는 의도적으로 제거된다. 페널티를 그대로 두면 섭동이 의도한 분포 이동을 다시 원위치로 되돌리기 때문이다.

학습 신호 처리

LoPE는 두 단계의 신호 정형을 추가로 사용한다. 정책 정형은 토큰 확률 ρ에 대해 ρ/(ρ+γ) 형태의 함수를 적용해 낮은 확률의 토큰에 더 큰 가중치를 준다. 이점 정형은 원본 응답과 재샘플된 응답을 모두 포함한 전체 집합에 대해 정규화를 수행해, 드물게 발생한 성공 사례의 신호를 2.1배에서 5.0배까지 증폭한다. 저자들은 그림 분석에서 Lorem 섭동된 응답이 토큰 생성 과정의 영근방 엔트로피 스파이크를 제거한다고 보고한다. 즉 결정적으로 한쪽 답으로 쏠리던 분포가 적당히 풀어지면서, 단순 온도 상승으로는 도달하지 못하는 새로운 추론 경로가 열린다.

실험 결과

평가는 MATH-500, GSM8K, AMC, AIME 2024와 2025 벤치마크에서 수행됐다. 비교 기준은 표준 GRPO와 단순 재샘플링이다.

모델별 성능 향상

세 가지 크기의 모델에서 일관된 향상이 관찰됐다.

모델표준 GRPO 대비 평균 향상핵심 벤치마크
Qwen3-1.7B+2.79점MATH-500, GSM8K, AMC
Qwen3-4B+4.62점MATH-500 77.80에서 82.60
Qwen2.5-Math-7B+6.20점AIME 포함 평균

세부 항목에서 Qwen3-4B의 AMC 점수는 47.76에서 58.21로 22% 상대 향상을 보였고, AIME 2024는 16.41에서 19.90으로 올라갔다. 어려운 부분 집합에서는 다른 모든 방법이 풀지 못한 50개 문제를 LoPE만이 해결했다는 점이 가장 인상적인 결과다. 이는 단순히 성능 평균을 끌어올리는 것이 아니라, 정책이 도달하지 못하던 영역으로 탐색 범위를 넓혔다는 신호다.

섭동 방식 비교

저자들은 일곱 가지 섭동 방식을 비교한다. 효과적인 섭동은 두 가지 공통 특징을 가진다. 첫째, 라틴어 기반 어휘로 영어 추론 맥락을 간섭하지 않는다. 둘째, 평균 난해도(perplexity)가 100 미만이어서 모델이 질문 자체는 정상적으로 이해할 수 있다.

섭동 방식평균 난해도결과
Lorem Ipsum25.12최우수
Filtered Latin NL46.09우수
Latin Unigram51.32우수
Random ASCII492.93성능 저하
Random Tokens매우 높음성능 저하

난해도가 너무 높으면 입력 자체가 깨져 모델이 질문을 해석하지 못한다. 반대로 너무 익숙한 영어 텍스트는 추론 분포를 흔드는 효과가 없다. 적당히 낯설지만 해석 가능한 범위가 최적점이다.

한계와 주의사항

저자들은 지나치게 강한 섭동이 일관성 없는 출력이나 바람직하지 않은 콘텐츠를 만들 수 있다고 언급한다. LoPE가 통제된 언어 형태의 섭동을 사용한 이유도 안전성 문제 때문이다. 다만 안전성에 대한 체계적 연구는 향후 과제로 남겨두었다. 또한 평가는 수학 추론에 한정되어 있어 일반 영역의 RLVR 작업에서도 동일한 효과가 재현될지는 별도의 검증이 필요하다. 실험은 1.7B에서 7B 사이의 모델에서 진행됐고, 더 큰 모델에서의 확장 가능성은 직접 측정되지 않았다.

결론

LoPE는 강화학습 훈련에서 어려운 질문이 영점 이점으로 사라지는 문제를 입력 측에서 푸는 단순한 방법이다. 정책 자체는 그대로 둔 채 프롬프트에 무의미한 라틴어 토큰을 덧붙여 출력 분포를 흔들고, 그 결과로 정책이 도달하지 못하던 추론 경로를 발견한다. Qwen3-4B에서 평균 4.62점, AMC 22% 상대 향상이라는 결과는 작은 입력 측 조작이 학습 동역학에 어떤 영향을 줄 수 있는지 보여준다. 강화학습 단계의 탐색 부족을 의심하고 있다면, 가장 비싼 알고리즘 변경 대신 가장 싼 프롬프트 섭동부터 시도해볼 가치가 있다.

Reference