포스트

Slack의 Agentic Testing: 에이전트는 E2E 테스트 스택 어디에 들어가는가

목차

  1. 개요
  2. 기존 E2E 테스트의 한계와 에이전트의 접근
  3. 실험 결과
  4. 테스팅 피라미드 속 에이전트의 위치
  5. 결론
  6. Reference

개요

Slack 엔지니어링 팀은 에이전트 기반 E2E 테스트가 기존 결정론적 테스트를 대체하는 것이 아니라 보완한다고 주장한다. 핵심 문장은 다음과 같다. “Tests enforce journeys. Agents verify goals.” 기존 테스트는 특정 UI 경로를 강제하지만, 에이전트는 “스레드 메시지 보내기” 같은 목표를 받아 자신의 판단으로 도달하는 방법을 찾는다.

기존 E2E 테스트의 한계와 에이전트의 접근

기존 결정론적 E2E 테스트는 클릭, 입력, 검증의 고정된 시퀀스를 강제한다. 예상하지 못한 UI 경로를 발견하지 못하고, UI가 바뀌면 모든 테스트를 수정해야 하는 유지보수 비용이 든다. 에이전트는 같은 목표를 다른 경로로 달성할 수 있어 이 한계를 보완한다.

세 가지 구현 모델

Slack은 세 가지 방식을 비교했다.

모델특징
Playwright MCP접근성 트리 스냅샷을 반환하고 상태를 유지해 안정적
Playwright CLI셸 명령으로 단계별 상호작용, 매 단계 UI 재판단으로 턴 수 증가
AI 생성 테스트자연어 설명에서 결정론적 테스트 코드를 생성, 한 번 만들면 반복 실행 가능

MCP와 CLI 에이전트는 Claude Sonnet 4.5를, 코드 생성은 Claude Opus 4.6을 사용했다.

실험 결과

실험은 200회 이상 자동 실행되었다. 시나리오는 스레드 답글(간단)과 검색 발견(중간 복잡도)이었고, 각 구성당 20회씩 실행했다.

신뢰성과 속도

신뢰성은 시나리오 복잡도에 따라 크게 갈렸다.

접근법스레드 답글검색 발견
MCP0%약 12%
CLI약 12%약 20%
생성 테스트약 8%약 48%

MCP는 복잡도가 올라가도 안정적이지만, CLI와 생성 테스트는 복잡도에 따라 결과 편차가 컸다. 원인은 상태 관리 방식의 차이다. MCP는 라이브 상태를 유지하지만, CLI는 매 단계마다 상태를 재구성하기 때문이다.

속도 면에서는 생성 테스트가 약 3분, MCP가 5에서 8분, CLI가 9에서 11분이 걸렸다. 생성 테스트는 실제 실행은 30에서 45초로 빠르지만 코드 생성 비용이 포함된 수치다.

적응성과 비용

에이전트의 강점은 적응성이다. 실행당 행동 시퀀스를 비교한 결과, 동일한 경로를 사용한 경우는 20%에 불과했다. 같은 최종 상태에 도달하되 메뉴 여는 순서를 바꾸거나 다른 UI 요소를 선택하는 등 목표 기반 유연성을 보였다.

비용은 만만치 않다. 실행당 15에서 30달러로 기존 테스트보다 훨씬 비싸다. 검색 발견 플로우 기준 토큰 사용량은 MCP가 약 350만에서 380만, CLI가 약 600만, 코드 생성이 약 700만 토큰이었다. 비용의 원인은 모델의 추론 능력보다 컨텍스트 누적과 턴 수에 있다. 매 턴마다 전체 시스템 프롬프트와 대화 이력을 재전송하고, 브라우저 스냅샷이 주요 페이로드를 차지하기 때문이다.

테스팅 피라미드 속 에이전트의 위치

Slack은 기존 테스팅 피라미드 위에 새로운 층을 추가한다.

1
2
3
4
5
6
7
8
9
┌──────────────────────┐
│  Agentic Testing     │  ← 새로운 층
├──────────────────────┤
│  E2E Testing (결정론) │
├──────────────────────┤
│  Integration Tests   │
├──────────────────────┤
│  Unit Tests          │
└──────────────────────┘

결정론적 E2E 테스트는 빠르고 반복 가능하며 CI에 친화적이고 운영 비용이 낮다. Agentic 테스팅은 복잡한 UI 동작을 탐색하고, 불안정한 워크플로우를 디버깅하고, 프로덕션 버그를 재현하는 데 강하다. 현재로서는 고빈도 CI 실행보다 표적 디버깅이나 탐색적 테스팅에 더 적합하다는 것이 결론이다.

결론

에이전트 기반 테스팅은 비싸고 느리지만, 기존 테스트로 발견할 수 없는 UI 경로를 탐색하고 불안정한 시나리오를 디버깅하는 고유한 가치를 제공한다. Slack이 제시하는 최적 전략은 둘의 조합이다. 결정론적 테스트가 CI의 안정적 기초를 담당하고, Agentic 테스팅이 탐색과 디버깅의 새로운 계층을 맡는다. 프롬프트 캐싱, 컨텍스트 압축, 스냅샷 빈도 감소 같은 최적화가 더해지면 ROI는 더 개선될 수 있다.

Reference