Agentopia: 에이전트 사회에서의 장기 생활 시뮬레이션과 학습
목차
개요
Agentopia는 Fudan University, Johns Hopkins University 등의 연구진이 제안한 프레임워크로, LLM 기반 AI 에이전트가 사회 속에서 10년간의 생활을 시뮬레이션하며 사회적 지능을 학습하는 시스템이다. 기존 사회 시뮬레이션 연구(예: Generative Agents)가 수 일(day) 단위에 그쳤던 한계를 극복하고, 시뮬레이션된 10년에 걸쳐 100명의 에이전트가 관계를 형성하고, 경력을 쌓으며, 경제 활동을 영위하는 장기 시뮬레이션을 실현한다. 연구의 핵심 질문은 “LLM이 에이전트 사회 내 시뮬레이션 생활 경험을 통해 인간과 유사한 사회적 지능을 개발할 수 있는가”이다. 이 프레임워크는 시뮬레이션 절차, 에이전트 설계, 환경 모델이라는 세 가지 요소로 구성되며, 인간 복지를 반영하는 새로운 보상 지표인 “생활 보상(life reward)”을 도입한다. 생활 보상 기반의 거부 샘플링(rejection sampling)으로 파인튜닝된 모델은 시뮬레이션 내 에이전트 웰빙을 개선하고, CoSER Test 기준 +15.6% 향상을 달성한다.
방법론
에이전트 설계
에이전트는 세 가지 요소로 구성된다.
첫째, 프로필(Profile)은 정체성, 성격 특성, 재능, 초기 위치 및 자산으로 구성된다. 둘째, 사회적 관계(Social Relationships)는 에이전트가 직접 관리하는 자유 형식 텍스트 메모리로 저장된다. 셋째, 동적 상태(Dynamic States)는 활력(vitality), 충족감(fulfillment), 기술 수준, 직위, 자산 등을 포함한다.
컨텍스트 관리는 세 레이어로 이루어진다.
| 레이어 | 역할 |
|---|---|
| 롤플레이 프롬프트 | 기본 페르소나 및 원칙 |
| 단계별 프롬프트 | 현재 단계 지시사항 |
| 메시지 히스토리 | 단계 내 누적 상호작용 |
메모리 시스템은 파일 시스템 기반 장기 메모리로 세 범주를 사용한다. general.txt는 개인 메모와 계획을 저장한다. characters/<name>.txt는 관계 기록을 저장한다. others/<name>.txt는 주제별 정보를 저장한다. 읽기-쓰기 제약(read-before-write constraint)을 통해 업데이트가 기존 내용을 기반으로 이루어지도록 보장한다.
시뮬레이션 절차
매 주(weekly)는 네 개의 순차적 단계로 구성된다.
1단계 - 계획(Plan): 에이전트가 메모리를 검토하고 주간 목표를 수립하며 소비 수준을 결정한다.
2단계 - 접촉(Contact): 다중 라운드 통신으로 일정을 조율한다. 에이전트는 초대를 제안하고 응답하며, 일정 충돌 해소와 중복 제거가 이루어진다. 환경 모델이 공개 이벤트와 우연 만남 이벤트를 생성한다.
3단계 - 활동(Activity): 에이전트는 네 가지 활동 유형을 수행한다.
| 활동 유형 | 설명 |
|---|---|
| 공동 활동(Joint) | 16가지 롤플레이 원칙 필터링이 포함된 다중 턴 대화 |
| 단독 활동(Solo) | 실현 가능성 평가가 포함된 단일 턴 행동 |
| 우연 만남(Encounter) | 환경 모델이 주선하는 우연한 만남 |
| 공개 활동(Public) | 선택적 참여가 가능한 커뮤니티 이벤트 |
4단계 - 검토(Review): 에이전트가 경험을 반추하고 메모리 파일을 업데이트한다.
연간 프로세스로는 축적된 경험을 반영한 프로필 업데이트, 직위 지원 및 경력 전환, 생활 보상 계산이 포함된다.
생활 보상 정의
생활 보상(life reward)은 세 가지 정규화된 차원을 결합한다.
사회적 보상(Social Reward): 가중 PageRank를 방향 그래프(애정·존경)에 적용하며, 상호 애정 보너스를 포함한다.
\[S_i' = \sum_{j \in \mathcal{N}_{in}(i)} w_{ji} \cdot (1 + \alpha \cdot w_{ij}) \cdot S_j\]여기서 α는 상호 애정 계수로 상호 관계를 강조한다.
주관적 보상(Subjective Reward):
\[r_{\text{subj}} = \frac{\sum_{w=1}^{n_w} \sum_{d=1}^{D} f_{w,d} - n_p \cdot \lambda_p}{n_w \cdot D}\]기분(mood), 물질적(material), 사회적(social), 자존감(esteem) 네 차원의 충족감을 추적하며, 극심한 결핍에 대한 페널티 메커니즘이 포함된다.
경제적 보상(Economy Reward):
\[r_{\text{econ}} = \text{deposit}_{\text{end}} - \text{deposit}_{\text{start}}\]연간 재정적 이익을 측정한다.
총 보상(Total Reward):
\[r = \lambda_{\text{social}} \cdot z_{\text{social}} + \lambda_{\text{subj}} \cdot z_{\text{subj}} + \lambda_{\text{econ}} \cdot z_{\text{econ}}\]z-점수 정규화 후 가중 결합을 적용한다.
생활 보상 학습
거부 샘플링 방식으로 각 연도 내 에이전트 중 상위 25%를 advantage 기준으로 선발한다.
\[A_{i,t} = G^{norm}_{i,t} - G^{norm}_{i,t-1}\]어드밴티지는 절대적 순위가 아닌 에이전트 자신의 이전 성능 대비 향상 정도를 측정하여 행동 다양성을 촉진한다.
품질 필터링은 다음 세 가지를 수행한다. 잘못된 형식의 행동 또는 유효하지 않은 파라미터를 제거한다. 16가지 롤플레이 원칙(인격화, 캐릭터 충실도, 실현 가능성)에 위배되는 항목을 검사한다. Agentopia 궤적과 범용 지시사항을 50:50 비율로 혼합하는 자기 증류(self-distillation)를 적용한다.
주요 결과
시뮬레이션 내 성능
실험은 세 가지 가상 세계에서 각 100명의 에이전트를 10년간 시뮬레이션한다.
| 세계 | 배경 | 특징 |
|---|---|---|
| The Apartment | 뉴욕 공유 주거 | 젊은 직장인들 간의 유기적 커뮤니티 형성 |
| Arcane Academy | 판타지 학술 환경 | 구조화된 관계 발전 |
| The Campus | 중국 고등학교 | 학업 압박과 성장 (중국어 시뮬레이션) |
주요 모델로 에이전트와 환경 모두에 Qwen3.5-397B-A17B를 사용하며, 유효하지 않은 출력에 대한 폴백으로 Gemini 3 Flash를 활용한다. 24가지 행동 지표를 추적하며, 보상 차원, 충족감, 활동 패턴, 접촉 행동, 개인 성장, 소셜 네트워크를 포괄한다.
Qwen3.5-397B-Agentopia(학습 후)와 기준 모델(Qwen3.5-397B)의 4년 평가 결과는 다음과 같다.
| 지표 | 기준 평균 | 학습 후 평균 | 변화 |
|---|---|---|---|
| 경제적 보상 | 1077 | 1104 | +2.5% |
| 주관적 보상 | 49.9 | 50.8 | +1.8% |
| 존경받는 대상 수 | 9.5 | 11.8 | +24.2% |
| 호감받는 대상 수 | 6.9 | 8.0 | +15.9% |
| 사회적 충족감 | 63.7 | 69.9 | +9.7% |
| 자존감 충족감 | 43.4 | 45.5 | +4.8% |
| 공개 활동 수 | 8.7 | 9.3 | +7.1% |
| 단독 활동 수 | 19.3 | 15.5 | -19.8% |
| 기술 향상 횟수 | 13.3 | 9.3 | -29.6% |
학습된 에이전트는 사회적 인정, 기분, 대인 관계 충족감에서 개선을 보인다. 단독 활동 및 기술 향상 감소는 보상된 행동 방향으로의 최적화를 반영한다.
보상과 행동 간 피어슨 상관 분석 결과, 총 보상은 충족감 차원 및 페널티 메커니즘과 가장 강한 상관(r = -0.50)을 보인다. 사회적 보상은 평판 지표와 강한 상관(존경받는 대상 r = 0.68)을 나타낸다. 주관적 보상은 기분(r = 0.54), 물질적(r = 0.73), 사회적(r = 0.52), 자존감(r = 0.30) 충족감에 의해 결정된다. 경제적 보상은 예금 누적(r = 0.56)과 주로 연관된다.
다운스트림 평가
CoSER Test 기준 최신 모델들과의 비교 결과는 다음과 같다.
| 모델 | 인격화 | 캐릭터 충실도 | 평균 |
|---|---|---|---|
| Qwen3.5-397B | 40.16 | 40.32 | 42.51 |
| Qwen3.5-397B-Agentopia | 49.67 (+23.7%) | 46.93 (+16.4%) | 49.16 |
| Claude 4.5-Sonnet | 36.02 | 47.55 | 45.21 |
| Claude 4.5-Opus | 64.28 | 58.45 | 62.43 |
학습은 시뮬레이션을 넘어 일반화되며, 인격화(anthropomorphism)와 캐릭터 충실도에서 가장 큰 향상을 보인다. CoSER Test 전체 기준으로 +15.6% 향상이 달성된다.
계산 비용
100명의 에이전트를 10년간 시뮬레이션하는 비용은 다음과 같다.
| 지표 | The Campus | Arcane Academy | The Apartment |
|---|---|---|---|
| 입력 토큰 | 19,041M | 11,302M | 9,699M |
| 출력 토큰 | 425M | 315M | 317M |
| 총 토큰 | 19,466M | 11,617M | 10,016M |
| API 호출 수 | 544K | 572K | 584K |
| 실제 소요 시간(시) | 201.3 | 174.2 | 183.2 |
10년 시뮬레이션 1회당 평균 약 137억 토큰, 약 186시간이 소요된다. 입력 토큰이 압도적으로 많으며, 주당 평균 1억 3,300만 대 350만이다. 에이전트 메모리가 누적됨에 따라 주당 실행 시간은 약 80분에서 140분으로 증가한다.
한계와 주의사항
턴 기반 생성: LLM의 순차적 출력은 인간의 연속적 지각과 근본적으로 다르다. 실시간 상호작용을 구현하면 계산 비용이 엄청나게 증가한다.
환각(Hallucination): 컨텍스트 관리와 위치 시스템에도 불구하고, 에이전트는 존재하지 않는 개체를 생성한다. 응답 필터링이 원칙 검증을 통해 이를 부분적으로 완화한다.
환경 충실도: 수치 시스템과 환경 모델 응답이 실제 사회 역학을 근사하지만 완벽히 반영하지는 못한다. 충족감 메커니즘이 인간 심리와 완전히 일치하지 않는다.
보상 정렬: 두 가지 핵심 격차가 존재한다. 생활 보상이 인간 웰빙의 복잡성을 완전히 포착하지 못할 수 있다. 모든 에이전트 피드백이 AI 모델에서 파생되어 인간 인지와의 정렬이 불확실하다.
계산 자원 제약: 자원 한계로 인해 추가 세계, 더 많은 에이전트 수, 더 긴 시뮬레이션 기간의 실험을 수행하지 못했다. 세밀한 크레딧 할당 방법도 탐구되지 않았다.
결론
Agentopia는 LLM 기반 에이전트 사회에서 다년간의 장기 생활 시뮬레이션 가능성을 증명한다. 구조화된 주간 사이클, 자율 메모리 관리, 생성형 환경 오케스트레이션의 결합이 풍부한 창발 행동을 가능하게 한다. 성격 진화, 낭만적 파트너십, 경제적 계층화 등의 현상이 관찰된다. 인간 복지 차원에 기반한 생활 보상 학습은 인간 주석 학습 데이터 없이도 에이전트를 보다 인간적이고 사회적으로 지능적인 행동 방향으로 최적화한다. CoSER Test에서 +15.6%의 전체 향상이 시뮬레이션 기반 학습이 다운스트림 롤플레이 과제로 전이됨을 검증한다. 향후 연구는 계산 확장성, 대안적 크레딧 할당 메커니즘, 시뮬레이션과 실제 인간 사회 역학 간의 정렬 문제를 다루어야 한다.