하이퍼커넥트 LLM 설명 정책 - 정답 없는 문제를 반복적 합의로 푸는 5단계 접근법
목차
개요
하이퍼커넥트가 데이팅 앱에서 사용자 매칭 시 “왜 이 상대와 잘 맞는가”를 설명하는 LLM 기능을 만들 때 마주한 도전과 그 해법을 정리한 기술 블로그를 공개했다. 정답 데이터가 없는 상황에서 “좋은 설명이 무엇인가”를 정의하기 어려웠고, 이를 반복적 팀 합의로 풀어낸 과정을 5단계로 설명한다. 이 글은 LLM 기능을 운영하는 팀이라면 누구나 마주칠 “정답 없는 평가” 문제에 대한 실용적 가이드다.
문제 정의
데이팅 앱의 매칭 설명 기능에는 명확한 ground truth가 없다. “이 사용자에게 이 매칭이 왜 좋은가”는 사람마다 판단이 갈리고, 평가 자체가 주관적이다. 이런 상황에서 정책을 처음부터 완벽하게 정의하려 하면 끝없는 회의에 빠지기 쉽다. 하이퍼커넥트 팀은 정책을 한 번에 완성하지 않고, 반복적으로 다듬는 워크플로를 채택했다.
반복적 정책 수립 5단계
블로그가 제시한 워크플로는 다음과 같다.
| 단계 | 내용 |
|---|---|
| 1 | PM이 기본 기준을 빠르게 정의해 초안 정책 작성 |
| 2 | 엔지니어가 정책 기반으로 LLM 설명 생성 |
| 3 | PM과 엔지니어가 각자 통과/불통과 판정 및 근거 기록 |
| 4 | 팀 회의에서 평가 차이를 분석하고 정책 개선 |
| 5 | 수렴할 때까지 1-4 반복 |
핵심은 “초안 정책은 불완전하다”는 가정에서 시작해, 평가 불일치를 정책 개선의 입력으로 사용하는 것이다.
이 방식이 효과적인 이유
| 요인 | 효과 |
|---|---|
| 빠른 실패 | 정책이 불완전할 것이라는 가정으로 조기에 한계 발견 |
| 단순 평가 | 5점 척도 대신 이분법 판정으로 인지 부담 감소 |
| 논리화 과정 | 비평 작성을 통해 각자의 기준을 명확히 함 |
| 팀 정렬 | 개별 기준이 모여 조직 차원의 일관된 정책으로 구조화 |
이분법 판정(통과/불통과)은 평가자가 빠르게 결정을 내리도록 강제하고, “왜 통과/불통과인가”를 글로 적도록 해서 암묵적 기준이 명시화된다. 이 명시화된 기준들이 다음 이터레이션의 정책 수정안이 된다.
결과
여러 이터레이션을 거쳐 팀이 합의한 명확한 정책이 도출되면, 이 정책을 LLM 프롬프트에 전달해 더 나은 출력을 얻을 수 있다. 즉 LLM의 출력 품질은 모델 성능보다 “팀이 어떤 정책에 합의했는가”에 의해 결정된다는 관점이다.
의미와 시사점
이 글이 LLM 기능을 운영하는 팀에 주는 시사점은 세 가지다. 첫째, 정답이 없는 문제에서 “정답 데이터를 만든 뒤 평가”라는 표준 ML 흐름이 항상 적합한 것은 아니다. 오히려 “정책 → 평가 → 정책 수정”이라는 짧은 루프가 더 빠르게 정렬을 만들어낸다.
둘째, 이분법 판정과 비평 작성을 결합한 평가 형식은 5점 척도보다 더 풍부한 신호를 만든다. “왜 통과/불통과인가”를 문장으로 적게 하면 평가자 간 차이가 비교 가능한 형태로 드러난다.
셋째, 정책 합의 과정 자체가 LLM 프롬프트의 1차 자료가 된다. “좋은 설명의 기준”을 정의하는 회의록과 비평이 곧 프롬프트의 instruction과 reference example이 될 수 있다.
결론
하이퍼커넥트의 사례는 “정답이 없는 LLM 기능을 어떻게 평가하고 개선할 것인가”에 대한 실용적 답을 보여준다. 복잡한 평가 체계를 만들기 전에, 이분법 판정과 비평 작성을 반복하는 단순한 5단계 루프부터 시작할 수 있다. 정책이 안정화되면 그 정책 자체가 프롬프트와 평가 기준을 동시에 정의하게 된다.