Mistral OCR 4: 구조화된 문서 인텔리전스 OCR 모델
목차
개요
Mistral OCR 4는 문서 인텔리전스를 위한 최신 광학 문자 인식(OCR) 모델이다. 단순히 텍스트를 추출하는 데 그치지 않고 문서의 구조를 함께 해석한다. 추출한 텍스트와 더불어 바운딩 박스, 블록 분류, 인라인 신뢰도 점수를 반환한다. 이를 통해 PDF, 문서, 프레젠테이션 등 다양한 형식의 자료를 구조화된 데이터로 변환할 수 있다.
이번 글에서는 Mistral OCR 4의 핵심 기능과 벤치마크 수치, 다국어 지원 범위, 그리고 가격과 가용성을 정리한다.
배경
기존 OCR은 문서에서 글자를 읽어내는 작업에 초점을 맞춰 왔다. 하지만 RAG(검색 증강 생성)나 에이전트형 워크플로우가 확산되면서, 단순 텍스트를 넘어 문서의 구조와 신뢰도 정보가 함께 필요해졌다. Mistral OCR 4는 제목, 표, 수식, 서명 같은 블록 유형을 구분하고 단어 단위 신뢰도를 제공함으로써 이 흐름에 대응한다. 또한 Mistral Search Toolkit과 연동되어 RAG 및 엔터프라이즈 검색 파이프라인에 곧바로 투입될 수 있도록 설계되었다.
핵심 내용
핵심 기능
Mistral OCR 4의 기능은 세분화, 구조 인식, 다국어 처리, 자체 호스팅으로 요약된다. 바운딩 박스와 함께 제목, 표, 수식, 서명 등 유형별 블록 분류를 제공한다. 단어 단위 신뢰도 점수를 함께 반환하여 후속 데이터 파이프라인에서 검증 기준으로 활용할 수 있다. 엔터프라이즈 배포 환경에서는 단일 컨테이너로 자체 호스팅이 가능하다.
지원하는 문서 형식은 다음과 같다.
| 항목 | 설명 |
|---|---|
| 지원 형식 | PDF, DOC, PPT, OpenDocument |
| 출력 정보 | 텍스트, 바운딩 박스, 블록 분류, 인라인 신뢰도 점수 |
| 블록 유형 | 제목, 표, 수식, 서명 |
| 연동 | Mistral Search Toolkit 기반 RAG 및 엔터프라이즈 검색 |
| 배포 | 단일 컨테이너 자체 호스팅 지원 |
벤치마크 성능
Mistral OCR 4는 사람 선호도 평가와 공개 벤치마크 모두에서 강력한 성능을 보였다. 독립 평가자들은 테스트된 모든 주요 경쟁 모델 대비 OCR 4를 선호했으며, 전체 시스템에 걸친 평균 승률은 72%였다. 공개 벤치마크에서는 OlmOCRBench에서 85.20으로 최고 점수를 기록했다.
주요 정량 수치는 다음과 같다.
| 벤치마크 | 점수 | 비고 |
|---|---|---|
| 사람 선호도 평균 승률 | 72% | 전체 시스템 대비 |
| OlmOCRBench | 85.20 | 최고 점수 |
| OmniDocBench | 93.07 | |
| Crawl Multilingual | 0.98 |
비교 대상은 AI 네이티브 OCR 모델, 프런티어 범용 모델, 엔터프라이즈 문서 서비스, 그리고 자사의 Mistral OCR 3였다. 다만 공식 발표에서는 개별 경쟁 제품명과 그 점수를 구체적으로 공개하지 않았다.
다국어 지원
Mistral OCR 4는 10개 언어 그룹에 걸쳐 170개 언어를 지원한다. Crawl Multilingual 평가에서 8개 언어 카테고리 전반에 걸쳐 선두를 차지했으며, 특히 특수 언어와 저자원 언어에서 성능 격차가 더 크게 벌어졌다고 밝혔다.
평가에 사용된 8개 언어 카테고리는 다음과 같다.
| 언어 카테고리 | 비고 |
|---|---|
| English | 영어 |
| Western Europe | 서유럽 |
| Eastern Europe | 동유럽 |
| Middle Eastern | 중동 |
| Chinese | 중국어 |
| East Asian | 동아시아 |
| Southeast Asian | 동남아시아 |
| Specialized Languages | 힌디, 일본어, 조지아어, 벵골어, 아르메니아어, 히브리어, 그리스어, 구자라트어, 타밀어, 말라얄람어, 칸나다어, 텔루구어 |
가격과 가용성
가격은 사용 방식에 따라 1,000페이지 단위로 책정된다. API 기준 1,000페이지당 4달러이며, Batch API는 50% 할인된 1,000페이지당 2달러다. Document AI는 1,000페이지당 5달러다.
| 제공 방식 | 가격 |
|---|---|
| API | 1,000페이지당 4달러 |
| Batch API | 1,000페이지당 2달러 (50% 할인) |
| Document AI | 1,000페이지당 5달러 |
가용성 측면에서는 Mistral Console을 통한 API 접근이 제공된다. 또한 Amazon SageMaker와 Microsoft Foundry에서 사용할 수 있으며, Snowflake Parse Document 연동도 곧 제공될 예정이다. 엔터프라이즈 고객을 위한 자체 호스팅 옵션도 함께 제공된다.
의미와 시사점
Mistral OCR 4의 강점은 정확도와 비용·속도 효율의 결합에 있다. 한 사용자는 주요 문서 파서들과 비교한 결과 “약 8배 낮은 비용과 17배 낮은 지연으로 동등한 정확도”를 달성했다고 언급했다. 또 다른 사용자는 대량 문서 처리 워크플로우에서 “기존 제공업체보다 페이지당 약 4배 빠르다”고 밝혔다.
이러한 특성은 문서 파싱, 인용 가능한 구조화 콘텐츠 기반 RAG, 양식 작성·송장 처리·규정 준수 점검 같은 에이전트형 워크플로우에 적합하다. 반면 공식 발표는 의료 진단, 법적 판단, 고위험 금융 의사결정, 안전 필수 시스템, 실시간 지연 민감 처리, 비문서 입력에는 권장되지 않는다고 명시한다. 도입을 검토한다면 이러한 권장 범위를 함께 고려하는 것이 바람직하다.
결론
Mistral OCR 4는 텍스트 추출을 넘어 문서의 구조와 신뢰도까지 함께 제공하는 문서 인텔리전스 모델이다. OlmOCRBench 85.20, OmniDocBench 93.07, 평균 선호 승률 72% 등 정량 지표에서 경쟁력을 보였다. 170개 언어 지원과 1,000페이지당 2달러부터 시작하는 가격, 그리고 자체 호스팅 옵션은 엔터프라이즈 도입의 진입 장벽을 낮춘다. 구조화된 출력이 필요한 RAG와 에이전트형 문서 파이프라인을 구축하려는 팀에게 유력한 선택지가 될 수 있다.