포스트

프롬프트의 정중함이 LLM 정확도에 미치는 영향 - Mind Your Tone 논문 분석

목차

  1. 개요
  2. 방법론
  3. 주요 결과
  4. 한계와 주의사항
  5. 결론
  6. Reference

개요

Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy 논문은 자연언어 프롬프트의 정중함 수준이 LLM의 정확도에 어떤 영향을 미치는지 조사한 연구이다. 저자 Om Dobariya와 Akhil Kumar가 2025년 10월 6일에 발표하였다. 프롬프트의 표현 방식, 특히 정중함의 정도가 LLM 성능에 영향을 미칠 수 있다는 점에 주목하였다. 연구 결과, 불정중한 프롬프트가 정중한 프롬프트보다 지속적으로 높은 정확도를 보였다.

방법론

프롬프트 설계

연구팀은 수학, 과학, 역사 세 가지 분야에서 50개의 기본 질문을 선정하였다. 각 질문을 5가지 톤 변형으로 작성하여 총 250개의 프롬프트를 생성하였다. 평가 대상 모델은 ChatGPT 4o를 사용하였다. 문제 형식은 객관식으로 통일하여 정확도 측정의 일관성을 확보하였다. 통계적 유의성 검증을 위해 쌍표본 t-검증(paired t-test)을 활용하였다.

톤 변형 분류

프롬프트의 톤은 다음 5가지로 분류되었다.

톤 변형영문 표기
매우 정중함Very Polite
정중함Polite
중립Neutral
무례함Rude
매우 무례함Very Rude

각 톤 변형은 동일한 질문의 내용을 유지하면서 표현의 정중함 수준만 달리하여 구성되었다.

주요 결과

톤별 정확도 비교

실험 결과, 불정중한 프롬프트가 정중한 프롬프트를 지속적으로 능가하는 것으로 나타났다.

톤 변형정확도
매우 정중함 (Very Polite)80.8%
매우 무례함 (Very Rude)84.8%

정확도는 매우 정중함의 80.8%에서 매우 무례함의 84.8%까지 분포하였다. 즉, 톤이 무례할수록 LLM의 응답 정확도가 높아지는 경향을 보였다. 이는 정중한 표현이 프롬프트에 불필요한 복잡성을 추가하여 모델의 핵심 질문 파악을 방해할 가능성을 시사한다.

기존 연구와의 차이

이 연구의 결과는 기존 연구들과 상이한 결과를 보여준다. 기존 연구에서는 정중한 프롬프트가 더 나은 성능을 보인다는 결과가 있었다. 그러나 이번 연구에서는 최신 LLM인 ChatGPT 4o가 톤 변화에 대해 다르게 반응할 가능성을 제시하였다. 이는 모델의 학습 데이터와 미세 조정 방식의 변화가 톤에 대한 반응 패턴을 변화시킬 수 있음을 의미한다.

한계와 주의사항

이 연구는 단일 모델(ChatGPT 4o)만을 대상으로 수행되었다는 한계가 있다. 50개의 기본 질문은 수학, 과학, 역사 세 분야에 한정되어 있어 다른 도메인에서의 일반화에는 주의가 필요하다. 또한 객관식 문제 형식만을 사용하였기 때문에, 개방형 질문에서의 톤 영향은 별도의 연구가 필요하다. 톤의 정중함 정도가 프롬프트의 길이나 복잡성에도 영향을 미칠 수 있어, 순수한 톤 효과만을 분리하기 어려울 수 있다.

결론

Mind Your Tone 논문은 프롬프트의 정중함 수준이 LLM 정확도에 영향을 미친다는 흥미로운 결과를 제시하였다. 불정중한 프롬프트가 정중한 프롬프트보다 더 높은 정확도를 보인 점은 기존의 통념과 상반된다. 이 연구는 LLM 사용 시 프롬프트 엔지니어링에서 톤의 역할을 재고할 필요성을 제기한다. 다만 단일 모델과 제한된 분야에서의 실험이므로, 다양한 모델과 도메인으로 확장된 후속 연구가 필요하다.

Reference