포스트

Claude Opus 4.7 출시: 셀프 검증, 3.3배 고해상도 비전, 코딩 13% 향상

목차

  1. 개요
  2. 핵심 개선 사항
  3. 주요 신기능
  4. 벤치마크 성능
  5. 가격 및 가용성
  6. 의미와 시사점
  7. 결론
  8. Reference

개요

Anthropic이 2026년 4월 16일 Claude Opus 4.7을 정식 출시했다. SWE-bench Verified에서 87.6%를 달성하며 GPT-5.4를 제치고 1위에 올랐다. 셀프 검증 기능, 3.3배 향상된 고해상도 비전, 코딩 벤치마크 13% 향상 등이 핵심 개선 사항이다. 가격은 Opus 4.6과 동일하게 유지되며, API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 사용할 수 있다.

핵심 개선 사항

소프트웨어 엔지니어링

Opus 4.7은 고급 소프트웨어 엔지니어링 작업에서 Opus 4.6 대비 13% 향상된 성능을 보인다. 복수의 파트너사가 코딩 벤치마크에서 10~14% 성능 개선을 보고했다. Rakuten은 프로덕션 환경에서 해결된 작업이 3배 증가했다고 밝혔다. 개발자가 복잡하고 장시간 실행되는 코딩 작업을 더 높은 신뢰도로 위임할 수 있게 되었다.

비전 능력

이미지 처리 해상도가 긴 변 기준 최대 2,576픽셀(약 375만 픽셀)로 이전 대비 3.3배 이상 향상되었다. 이 개선은 컴퓨터 사용 에이전트, 다이어그램에서의 데이터 추출, 상세 시각 분석 등을 지원한다. 화학 구조 인식, 기술 다이어그램 해석, 전문 출력물의 디자인 품질이 개선되었다.

추론과 계획

강화된 지속적 추론(sustained reasoning) 능력으로 다단계 워크플로우를 더 잘 처리한다. 계획 단계에서 논리적 결함을 사전에 포착하는 능력이 향상되었다. 긴 컨텍스트 작업 전반에서 일관성이 개선되었다.

주요 신기능

셀프 검증

Opus 4.7의 가장 주목할 만한 신기능은 셀프 검증이다. 작업 완료 전에 자체적으로 검증 단계를 실행하여 결과의 정확도를 높인다. 이는 에이전틱 작업에서 특히 유용하며, 사람의 개입 없이도 오류를 사전에 발견할 수 있게 해준다.

Effort Level과 Task Budget

새로운 xhigh effort 옵션이 추가되었다. 기존 highmax 사이의 세밀한 제어를 제공하여, 추론 깊이와 지연 시간 사이의 균형을 맞출 수 있다. 퍼블릭 베타로 제공되는 Task Budget 기능은 장시간 실행 시 Claude의 토큰 할당을 가이드한다.

토크나이저 변경

업데이트된 토크나이저가 텍스트 처리를 개선하지만, 콘텐츠 유형에 따라 토큰 매핑이 약 1.0~1.35배 증가한다. 높은 effort 수준에서는 모델이 “더 많이 생각”하면서 출력 토큰이 증가하며, 특히 에이전틱 멀티턴 환경에서 이 현상이 두드러진다.

벤치마크 성능

벤치마크점수
SWE-bench Verified87.6%
GPQA Diamond94.2%
Terminal-Bench 2.069.4%
Finance Agent (General Finance)0.813

SWE-bench Verified 87.6%로 코딩 벤치마크 1위를 달성했다. GPQA Diamond 94.2%로 과학 추론 영역에서도 최상위 성능을 보인다. 금융, 오피스 작업, 비전, 문서 추론, 긴 컨텍스트 작업 등 다양한 도메인에서 최신 기술 수준(state-of-the-art)을 기록했다.

가격 및 가용성

항목내용
입력 토큰$5 / 백만 토큰
출력 토큰$25 / 백만 토큰
API 식별자claude-opus-4-7
플랫폼API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry

가격은 Opus 4.6과 동일하게 유지된다. 다만 토크나이저 변경으로 인해 동일 텍스트에 대한 토큰 수가 소폭 증가할 수 있어, 실질 비용이 미세하게 상승할 수 있다.

의미와 시사점

Opus 4.7은 “성능 향상 + 가격 동결”이라는 조합으로 출시되었다. SWE-bench 87.6%는 AI 코딩 에이전트의 실용성이 프로덕션 수준에 근접하고 있음을 보여준다. 셀프 검증 기능은 에이전틱 AI의 신뢰도 문제를 모델 내부에서 해결하려는 시도로, 향후 자율 코딩 에이전트의 핵심 기능으로 자리잡을 가능성이 높다. 지시 따르기(instruction following) 능력이 크게 향상되어 이전 버전보다 지시를 더 문자 그대로 해석하므로, 기존 프롬프트를 재조정해야 할 수 있다는 점에 유의해야 한다.

안전성 측면에서 Anthropic은 사이버보안 역량을 의도적으로 제한했으며, 보안 전문가를 위한 Cyber Verification Program을 별도로 운영한다. Stripe, Cursor, Hex, Devin, Notion 등 파트너사들이 신뢰성, 정확도, 자율성에서 유의미한 개선을 보고했다.

결론

Claude Opus 4.7은 SWE-bench 87.6% 달성으로 코딩 벤치마크 1위를 기록하며, 셀프 검증과 3.3배 고해상도 비전이라는 핵심 기능을 추가했다. Opus 4.6 대비 코딩 13%, 추론 14% 향상을 이루면서도 가격은 동일하게 유지했다. 에이전틱 AI 시대에 신뢰성과 자율성을 동시에 강화한 모델로, AI 코딩 에이전트 생태계에서의 경쟁 구도를 한층 더 치열하게 만들 전망이다.

Reference