포스트

하이퍼커넥트 LLM 설명 정책 - 정답 없는 문제를 반복적 합의로 푸는 5단계 접근법

목차

  1. 개요
  2. 문제 정의
  3. 반복적 정책 수립 5단계
  4. 이 방식이 효과적인 이유
  5. 결과
  6. 의미와 시사점
  7. 결론
  8. Reference

개요

하이퍼커넥트가 데이팅 앱에서 사용자 매칭 시 “왜 이 상대와 잘 맞는가”를 설명하는 LLM 기능을 만들 때 마주한 도전과 그 해법을 정리한 기술 블로그를 공개했다. 정답 데이터가 없는 상황에서 “좋은 설명이 무엇인가”를 정의하기 어려웠고, 이를 반복적 팀 합의로 풀어낸 과정을 5단계로 설명한다. 이 글은 LLM 기능을 운영하는 팀이라면 누구나 마주칠 “정답 없는 평가” 문제에 대한 실용적 가이드다.

문제 정의

데이팅 앱의 매칭 설명 기능에는 명확한 ground truth가 없다. “이 사용자에게 이 매칭이 왜 좋은가”는 사람마다 판단이 갈리고, 평가 자체가 주관적이다. 이런 상황에서 정책을 처음부터 완벽하게 정의하려 하면 끝없는 회의에 빠지기 쉽다. 하이퍼커넥트 팀은 정책을 한 번에 완성하지 않고, 반복적으로 다듬는 워크플로를 채택했다.

반복적 정책 수립 5단계

블로그가 제시한 워크플로는 다음과 같다.

단계내용
1PM이 기본 기준을 빠르게 정의해 초안 정책 작성
2엔지니어가 정책 기반으로 LLM 설명 생성
3PM과 엔지니어가 각자 통과/불통과 판정 및 근거 기록
4팀 회의에서 평가 차이를 분석하고 정책 개선
5수렴할 때까지 1-4 반복

핵심은 “초안 정책은 불완전하다”는 가정에서 시작해, 평가 불일치를 정책 개선의 입력으로 사용하는 것이다.

이 방식이 효과적인 이유

요인효과
빠른 실패정책이 불완전할 것이라는 가정으로 조기에 한계 발견
단순 평가5점 척도 대신 이분법 판정으로 인지 부담 감소
논리화 과정비평 작성을 통해 각자의 기준을 명확히 함
팀 정렬개별 기준이 모여 조직 차원의 일관된 정책으로 구조화

이분법 판정(통과/불통과)은 평가자가 빠르게 결정을 내리도록 강제하고, “왜 통과/불통과인가”를 글로 적도록 해서 암묵적 기준이 명시화된다. 이 명시화된 기준들이 다음 이터레이션의 정책 수정안이 된다.

결과

여러 이터레이션을 거쳐 팀이 합의한 명확한 정책이 도출되면, 이 정책을 LLM 프롬프트에 전달해 더 나은 출력을 얻을 수 있다. 즉 LLM의 출력 품질은 모델 성능보다 “팀이 어떤 정책에 합의했는가”에 의해 결정된다는 관점이다.

의미와 시사점

이 글이 LLM 기능을 운영하는 팀에 주는 시사점은 세 가지다. 첫째, 정답이 없는 문제에서 “정답 데이터를 만든 뒤 평가”라는 표준 ML 흐름이 항상 적합한 것은 아니다. 오히려 “정책 → 평가 → 정책 수정”이라는 짧은 루프가 더 빠르게 정렬을 만들어낸다.

둘째, 이분법 판정과 비평 작성을 결합한 평가 형식은 5점 척도보다 더 풍부한 신호를 만든다. “왜 통과/불통과인가”를 문장으로 적게 하면 평가자 간 차이가 비교 가능한 형태로 드러난다.

셋째, 정책 합의 과정 자체가 LLM 프롬프트의 1차 자료가 된다. “좋은 설명의 기준”을 정의하는 회의록과 비평이 곧 프롬프트의 instruction과 reference example이 될 수 있다.

결론

하이퍼커넥트의 사례는 “정답이 없는 LLM 기능을 어떻게 평가하고 개선할 것인가”에 대한 실용적 답을 보여준다. 복잡한 평가 체계를 만들기 전에, 이분법 판정과 비평 작성을 반복하는 단순한 5단계 루프부터 시작할 수 있다. 정책이 안정화되면 그 정책 자체가 프롬프트와 평가 기준을 동시에 정의하게 된다.

Reference