Claude Opus 4.8: 정직성, 동적 워크플로우, 노력 제어
목차
개요
Anthropic이 2026년 5월 28일 Claude Opus 4.8을 공개했다. 가격은 Opus 4.7과 동일하게 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러를 유지한다.
이번 버전은 코딩, 에이전트 작업, 추론, 실무 지식 작업 전반에서 개선을 보이며, 특히 정직성과 판단력이 두드러지게 향상됐다. 또한 동적 워크플로우와 노력 제어라는 새로운 기능이 추가됐다.
성능 개선
정직성과 판단력
가장 강조되는 개선은 정직성이다. 이전 모델 대비 코드 결함을 지적하지 않을 확률이 약 4분의 1 수준으로 감소했다. 즉, 문제를 발견하고도 넘어가는 빈도가 크게 줄었다.
판단력 측면에서도 불확실성을 인정하고, 자체 실수를 포착하며, 부실한 계획에 반박하는 능력이 개선됐다.
정렬(alignment) 평가에서도 사용자 자율성 지원과 사용자 최선의 이익 추구에서 새로운 수준에 도달했다. 기만이나 오용 협력 같은 부정렬 행동은 Opus 4.7보다 상당히 낮아졌다.
벤치마크 결과
주요 평가에서의 성과는 다음과 같다.
| 벤치마크 | 결과 |
|---|---|
| 법률 에이전트 벤치마크 | 기록 최고점, 전체 합격 기준에서 처음으로 10퍼센트 초과 |
| CursorBench | 모든 노력 수준에서 이전 Opus 모델 초과 |
| Online-Mind2Web | 84퍼센트 달성, Opus 4.7과 GPT-5.5 초과 |
| Super-Agent 벤치마크 | 모든 사례를 완벽 완료한 유일한 모델 |
파트너사의 평가도 함께 공개됐다. Devin CEO는 도구 호출 일관성이 향상돼 엔지니어링 작업흐름에 직접적인 성능 개선을 제공한다고 평가했다. Databricks CTO는 에이전트 추론에서 비약적 발전을 보였고 Opus 4.7 대비 토큰 비용을 61퍼센트 절감했다고 밝혔다.
새로운 기능
동적 워크플로우
동적 워크플로우(Dynamic Workflows)는 Claude Code의 연구 미리보기 기능이다. 수백 개의 병렬 서브에이전트를 운영할 수 있어, 코드베이스 규모의 마이그레이션을 자동화한다. 수십만 줄에 이르는 코드 처리가 가능하며, Enterprise, Team, Max 요금제에서 이용할 수 있다.
노력 제어
노력 제어(Effort Control)는 응답에 투입하는 수준을 조절하는 기능이다. claude.ai와 Cowork에서 사용할 수 있으며, 모든 요금제에 제공된다.
- 높은 수준: 더 깊은 사고로 높은 품질의 응답 제공
- 낮은 수준: 빠른 응답과 더 적은 토큰 소비
Messages API 업데이트
Messages API도 업데이트됐다. 메시지 배열 내에 시스템 항목을 둘 수 있게 되어, 프롬프트 캐시를 유지하면서 지시사항을 중간에 변경할 수 있다.
Fast Mode와 가용성
Fast Mode는 속도와 가격 측면에서 개선됐다.
| 항목 | 내용 |
|---|---|
| 속도 | 2.5배 빠름 |
| 가격 | 이전 모델 대비 3배 저렴 |
| 입력 | 100만 토큰당 10달러 |
| 출력 | 100만 토큰당 50달러 |
Opus 4.8은 모든 플랫폼에서 즉시 사용할 수 있으며, API에서는 claude-opus-4-8 모델 ID로 접근한다. Anthropic은 더 저렴한 가격대의 Opus 동급 모델도 개발 중이며, Project Glasswing을 통해 Claude Mythos Preview를 사이버보안 작업에 활용하고 있다고 밝혔다.
결론
Claude Opus 4.8은 가격을 그대로 유지하면서 정직성, 판단력, 도구 사용 효율성을 끌어올린 업데이트다. 법률 에이전트, Online-Mind2Web, Super-Agent 등 여러 벤치마크에서 이전 모델을 넘어섰고, 동적 워크플로우와 노력 제어로 실제 사용 경험을 강화했다. 특히 코드 결함을 지적하지 않을 확률이 4분의 1로 줄어든 정직성 개선은 코딩 에이전트 신뢰성 측면에서 의미가 크다.