TaskMem: 멀티모달 에이전트를 위한 작업 중심 기억 학습

게시 2026/06/07 업데이트 2026/06/07

By Juho

11 분읽는 시간

개요

멀티모달 에이전트는 카메라와 센서를 통해 끊임없이 들어오는 관찰 스트림을 마주한다. 이때 핵심 과제는 무한히 이어지는 지각 정보 중에서 무엇을 선택적으로 기억할지 결정하는 것이다. TaskMem은 이 문제를 정적 휴리스틱이 아니라 학습 가능한 정책으로 정의한다.

기존 프레임워크는 기억 구축을 작업 실행과 독립적으로 취급해 왔다. 대부분 휴리스틱 프롬프트나 사전에 정의된 템플릿에 의존하며, 무엇을 기억해야 하는지를 명시적으로 최적화하지 않았다. TaskMem은 “기억은 수동적 저장이 아니라 능동적이고 목표지향적인 과정”이라는 관점에서 기억 생성을 최적화 문제로 전환한다.

임베디드 AI 에이전트의 장기 기억은 모달리티 간 일관성 유지, 지식 축적, 지속 학습에 필수적이다. 연속적인 지각 스트림에서 어떤 정보를 보존할지 결정하는 능력이 에이전트의 성능을 좌우한다. TaskMem은 이를 위해 2단계 강화학습(RL) 프레임워크를 제안한다.

Phase One은 기본 충실도 요건 하에서 기억 품질을 최적화한다. Phase Two는 실제 환경 작업으로 어댑터를 튜닝해 작업과 관련된 내용으로 기억을 유도한다. 이 접근은 VideoMME, EgoLife, EgoTempo 벤치마크에서 베이스 모델인 Qwen3-VL-30B 대비 정확도를 각각 6.3%, 7.0%, 5.3% 향상시켰다.

관련 연구 측면에서, Test-Time Training(TTT)은 추론 중 파라미터를 적응시키는 방법이다. TaskMem은 단 2,048개의 파라미터만 갖는 경량 어댑터로 catastrophic forgetting(파국적 망각) 문제를 해결한다. 이를 통해 베이스 모델의 능력을 보존하면서도 작업 특화 기억을 학습할 수 있다.

방법론

문제 정의는 기억 정책을 중심으로 이루어진다. 기억 정책은 최근 k개의 비디오 세그먼트와 이전 기억으로 구성된 컨텍스트로부터 새로운 기억을 생성한다. 정책의 목표는 기대 보상을 최대화하는 것이다.

Phase One: 어떻게 기억할까

Phase One은 기억을 어떻게 생성할지를 학습하는 단계이다. Group Sequence Policy Optimization(GSPO)을 사용하며, 다목적 보상 함수로 정책을 최적화한다. 보상은 네 가지 항목으로 구성된다.

첫째, Format reward는 정해진 형식을 준수하는지 평가한다. 둘째, Length penalty는 추론 길이가 과도하게 길어지지 않도록 규제한다. 셋째, Quality reward는 정확성과 비중복성을 보상모델로 평가한다. 넷째, Richness reward는 내용이 빈약해지는 것을 막기 위해 샘플 그룹 내 순위를 기준으로 보상한다.

학습은 두 단계로 진행된다. 먼저 Gemini-2.5-Pro가 생성한 기억으로 off-policy 히스토리 학습을 수행한다. 이후 정책 자신이 생성한 히스토리로 on-policy 학습으로 전환한다.

Phase Two: 무엇을 기억할까

Phase Two는 무엇을 기억할지를 학습하는 단계이다. transformer의 22번째 레이어에 삽입한 경량 어댑터에 Direct Preference Optimization(DPO)을 적용한다. 이 단계는 세 가지 과제를 해결한다.

첫째, sparse feedback 문제이다. 실제 환경에서는 피드백이 희소하기 때문에, 최근 작업에서 쌍별 선호 데이터를 구성해 학습에 활용한다. 둘째, catastrophic forgetting 문제이다. 베이스 모델을 직접 갱신하지 않고 어댑터만 학습함으로써 베이스 능력을 보존한다. 셋째, 계산 효율 문제이다. 오직 2,048개의 파라미터만 갱신하므로 서빙 비용이 추가되지 않는다.

가속 전략도 함께 제안한다. 10-step으로 학습한 어댑터를 목표 norm으로 스케일링하면 40-step 학습 성능에 근접할 수 있다. 이 방식으로 학습 데이터와 시간을 약 75% 절감한다.

실험 셋업

벤치마크로는 VideoMME(1,800 QA), EgoLife(500), EgoTempo(500)를 사용한다. 이들을 스트리밍 작업으로 재구성했는데, 비디오를 순차적으로 처리한 뒤 생성된 기억만으로 질문에 답변하도록 했다. 평가 지표는 세 가지다.

Accuracy는 전체 정확도를 의미한다. Coverage는 답변 가능한 비율을 의미한다. Precision은 답변 가능한 항목 중 정답을 맞춘 비율을 의미한다.

베이스라인으로는 Gemini-1.5/2.5-Pro, GPT-5.2, Qwen3-VL-30B를 사용했다. 또한 기억 프레임워크인 EgoGPT, HippoMem, M3-Agent와도 비교했다.

주요 결과

세 벤치마크 전반에서 TaskMem은 베이스 모델 대비 일관된 향상을 보였다. 아래 표는 Qwen3-VL 베이스와 TaskMem의 정량 비교 결과이다.

Table 2: 벤치마크별 성능 비교 (Accuracy / Coverage / Precision)

벤치마크	베이스 Acc	베이스 Cov	베이스 Prec	TaskMem Acc	TaskMem Cov	TaskMem Prec
VideoMME	61.6	74.7	82.5	67.9	79.3	85.6
EgoLife	38.4	52.4	73.3	45.4	56.4	80.5
EgoTempo	22.3	38.9	57.2	27.6	43.7	63.2

VideoMME에서 정확도는 61.6%에서 67.9%로 상승했다. EgoLife에서는 38.4%에서 45.4%로, EgoTempo에서는 22.3%에서 27.6%로 향상되었다. 세 지표 모두에서 일관된 개선이 나타났다.

Table 3: 단계별 Ablation (VideoMME 기준)

구성	VideoMME Accuracy
베이스	61.6
프롬프트만 사용	64.2
Phase One만	64.4
Phase One + Phase Two	67.9

Phase One만 적용해도 정확도가 64.4%로 베이스 61.6%보다 향상되었다. 여기에 Phase Two를 추가하면 67.9%까지 상승한다. 파라미터 튜닝 없이 프롬프트만 사용한 경우(64.2%)는 파라미터 튜닝보다 저조했다.

어댑터 분석

Table 4의 객체 인식 교차 작업 전이 테스트에서는 매칭된 작업 어댑터만 성능이 향상되었다. 즉, 특정 작업에 맞춰 학습된 어댑터는 다른 작업으로 일반화되지 않았다. 이는 어댑터가 작업 특화 학습을 수행하고 있음을 확인해 준다.

한계와 주의사항

현재 TaskMem은 에피소드 기억에 초점을 맞추고 있다. 이를 의미 기억이나 시각 기억으로 확장하는 것은 향후 과제로 남아 있다.

어댑터의 수렴이 학습 초기에 일어나는 점도 관찰되었다(Figure 4). 이는 학습 과정을 더욱 효율화할 여지가 있음을 시사한다.

레이어 배치에 대한 ablation(Figure 5)에서는 얕은 레이어와 중간 레이어가 깊은 레이어보다 어댑터 배치에 효과적이었다. 이 결과는 어댑터를 transformer의 어느 위치에 삽입할지가 성능에 영향을 준다는 것을 보여준다.

결론

TaskMem은 기억 생성이 정적 요약이 아니라 학습 가능한 작업 인식 과정이어야 한다는 점을 보여준다. 2단계 접근, 즉 기초 품질 최적화와 환경 특화 튜닝의 결합은 VQA 성능을 일관되게 향상시켰다.

최소 파라미터 적응(2,048개 파라미터)으로 실용적인 효율을 달성하면서도 베이스 모델의 능력을 유지한다. 이는 무한히 들어오는 관찰 스트림에서 무엇을 기억할지를 학습으로 결정하는 멀티모달 에이전트의 새로운 방향을 제시한다.

Reference

Task-Focused Memorization for Multimodal Agents (TaskMem)

AI Agent Benchmark Evaluation