SEFD: SEC EDGAR 공시를 레이아웃 충실·토큰 효율 학습 데이터로 재구성하기

게시 2026/06/28 업데이트 2026/07/01

By Juho

28 분읽는 시간

개요

고품질 공개 웹 코퍼스가 점차 고갈되면서 깨끗한 장문맥(long-context) 문서는 LLM 학습에서 희소하고 비싼 자원이 되었다. 기존 장문맥 코퍼스는 대개 폐쇄적이고 취득 비용이 높거나, 합성으로 생성되었거나, 프로그래밍 같은 좁은 도메인에 집중되어 있다. 이 논문은 미국 증권거래위원회(SEC)의 공개 공시 아카이브인 EDGAR를 레이아웃 충실(layout-faithful)한 MultiMarkdown으로 재구성한 Stanford EDGAR Filings Dataset(SEFD)을 제안한다.

EDGAR는 하루 약 4,700건의 공시를 처리하고 연간 약 40,000개의 신규 제출자를 수용하는 대규모 공개 저장소다. 그러나 1994년부터 현재까지 약 1,850만 건의 공시는 작성·렌더링·제출 방식에서 비롯된 광범위한 파싱 난이도 때문에 완전한 학습 데이터로는 거의 활용되지 못했다. SEFD는 이 전체 아카이브를 토큰 효율적으로 재구성하며, 감사받은 재무제표·위험 공시·소유권 보고·회계 주석·시장 영향 이벤트 공시를 장문맥 학습 데이터이자 재무 추론·예측·컴플라이언스·문서 이해의 기반으로 만든다.

저자들은 1,850만 건 규모의 아카이브를 약 548.9B 토큰으로 추정하며, 그중 152B 토큰 규모의 초기 공개 스냅샷인 SEFD-v1을 공개한다. SEFD-v1은 2022년 1월부터 2025년 6월까지의 공시를 포함한다. 규칙 기반 방법론은 사람 평가에서 99% 이상의 구조적·의미적 정확도를 달성했고, C4 같은 Common Crawl 파생 코퍼스와의 중복은 0.1% 미만이다.

저자들은 SEFD에서 파생한 두 벤치마크도 함께 도입한다. EDGAR-Forecast는 모델의 지식 컷오프 이후 공개된 공시를 근거로 한 수치 예측을 평가하고, EDGAR-OCR는 복잡한 재무 테이블의 전사(transcription)를 평가한다.

방법론

원시 SEC 공시의 구조적 혼란은 기계 가독 텍스트가 아니라 컴플라이언스용 시각적 공시에 최적화된 규제 워크플로의 부산물로 이해하는 것이 가장 적절하다. 실제로 깨끗하게 재구성하면 원본 대비 토큰 수를 99% 이상 줄일 수 있는데, 현대 공시 HTML의 상당 부분이 작성자가 쓴 내용이 아니라 표현용 스캐폴딩이기 때문이다. Workiva, Donnelley Financial Solutions(DFIN), Toppan Merrill 같은 기업용 공시 관리 플랫폼과 제출 대행사가 재무제표·서술형 공시·XBRL 태그·보고 템플릿을 조립해 SEC 규격 문서로 렌더링한다.

EDGAR는 브라우저 간 인쇄물 같은 안정적 외관을 유지하기 위해 허용된 태그와 HTML 3.2/4.0 시대 속성으로 공시 HTML을 제한한다. 그 결과 테이블 기반 레이아웃과 표현용 마크업, 명시적 공백이 권장된다. 브라우저는 이런 마크업 조각을 시각적으로 붙여 보여주지만, 파서는 분리된 조각 중 어떤 것이 의미적으로 연결되는지 추론해야 한다.

Visual-first 파싱

SEFD는 이런 연결을 명시적으로 만들기 위해 visual-first 파싱 방법론을 채택한다. 순진한 DOM 기반 텍스트 추출에 의존하는 대신 공간적 의미를 재구성한다. 렌더링된 문서를 선형 태그 계층이 아니라 2차원 좌표 격자로 취급하여, 직렬화 전에 파편화된 텍스트 스팬을 재결합하고 시각적 들여쓰기를 해소한다.

데이터 인입은 SGML 헤더의 CONFORMED SUBMISSION TYPE을 파싱하는 것에서 시작한다. 이를 통해 Forms 4, 13F, N-PORT 등 33개 전용 XML 스키마와 10-K, 10-Q, 8-K 변종을 포함한 350개 이상의 제출 유형으로 공시를 라우팅한다. SEFD는 표현 형식으로 MultiMarkdown(MMD)을 사용하는데, 복잡한 테이블 로직을 토큰 효율적으로 표현하면서 Markdown의 작은 확장에 머물기 때문이다. MMD는 수평 스팬을 연속 파이프 구분자로, 수직 스팬을 캐럿 표시로 인코딩하여 HTML 태그 없이 병합 셀 구조를 보존한다.

가장 두드러진 레이아웃 엔지니어링의 산물은 수치 값의 파편화다. 재무 보고에서 숫자는 일반적으로 우측 정렬되고 소수점은 열 안에서 공통 x 좌표에 정렬된다. 그러나 레거시 HTML에는 문자 기준 정렬을 위한 네이티브 소수점 탭이 없으며, 음수를 나타내는 괄호가 추가 글리프를 끼워 넣어 정렬을 깨뜨린다.

이를 해결하기 위해 제출자들은 보편적으로 Three-Column Hack을 채택한다. 하나의 수치 값이 세 개의 서로 다른 테이블 셀로 분해된다.

열	역할
접두/거터 열	보통 너비 1퍼센트로 정의되며, 떠 있는 통화 기호나 여는 괄호를 담는다
값 열	정수부와 소수부를 담는다
접미 열	닫는 괄호나 백분율 기호를 담는다

SEFD는 이를 이해하고 양방향 규칙 기반 병합 알고리즘을 사용한다. 파서는 통화 기호·백분율·괄호 조각으로만 구성된 modifier 열을 테이블 격자에서 스캔해 인접한 값 열로 접어 넣는다. 접두는 오른쪽으로, 접미는 왼쪽으로 병합하며, lookahead·lookbehind 검사로 대상 열이 호환 가능한 수치 데이터를 담는지 확인한다. 각주 표시나 장식용 공백이 modifier처럼 보일 수 있으므로 분류 로직은 의미적 modifier와 구조적 잔여물을 구분하도록 문맥을 인식한다.

헤더 재구성에서는 제출 대행사가 하나의 의미적 헤더를 여러 테이블 행으로 분해하는 관행을 역설계한다. SEFD는 테두리·여백 스타일링 단서로 이런 구조를 인식하고 행 수와 내용 밀도로 후보 헤더를 거르며, 통화 기호나 의결권 데이터 같은 재무 지표가 포함된 격자는 제외한다. 파편화된 헤더가 확인되면 행들을 단일 텍스트 블록으로 통합하고, 모호함이 생기면 재구성을 중단하고 행 단위 추출로 폴백한다.

형식별 재구성 전략

SEFD는 형식 세대마다 다른 파싱 전략을 결합한다.

레거시 ASCII 문서, 특히 2000년대 초 HTML 보급 이전 공시와 2018년까지 키-값 ASCII 체계를 쓴 Form NSAR 등은 재구성 대신 보존 전략을 따른다. 이런 파일은 고정폭 문자와 공백으로 테이블과 정렬을 표현하므로 공백을 정규화하면 구조가 파괴된다. 파이프라인은 구조적 HTML 태그가 없는지를 정규식으로 확인해 이런 파일을 식별하고, 텍스트 본문을 Markdown 코드 펜스로 감싼다.

HTML 파생 토큰은 코퍼스의 약 62퍼센트를 차지한다. EDGAR는 필러를 레거시 HTML의 좁은 부분집합으로 제한하고 외부 의존성과 외부 CSS를 금지하므로 필링 소프트웨어는 layout engineering에 의존한다. SEFD는 HTML 파싱을 구문 트리 순회가 아니라 렌더링된 좌표계의 재구성으로 다룬다. CSS 여백·패딩·고정폭 빈 열·비분리 공백은 이산적 들여쓰기 수준으로 변환되고, 인라인 스타일은 DOM 파싱 전에 짝지어진 플레이스홀더 토큰을 삽입해 보존된다.

XML은 2003년 중반 SEC의 Section 16 소유권 보고 XML 채택 이후 급증해, 2019~2025년 표본에서는 형식별 토큰의 39.4퍼센트에 이른다. XML은 디스클로저를 XSD 스키마가 규율하는 명시적 필드로 인코딩하지만, 그 자체로는 학습 문서가 아니므로 스키마 요소·선택적 분기·반복 레코드로부터 원본 문서 구조를 재생성해야 한다. N-PORT 같은 광범위한 공시는 기술 명세에 89개의 조건부 또는 상호 배타적 분기 규칙을 담고 있어 특히 까다롭다. 지원되는 33개 XML 스키마는 거래·소유권 공시, 펀드·포트폴리오 보고, 1차 발행·발행인 통지, 법인 등록·컴플라이언스의 네 가지 원형으로 나뉜다.

SGML은 세 가지 역할을 한다. 모든 제출은 CIK·필링 유형 같은 색인 메타데이터를 담은 SEC-HEADER 블록으로 감싸이고, DOCUMENT·TYPE 태그가 제출을 구성 부분으로 분절하며, 일부 투자회사 공시에서는 주요 데이터 컨테이너로 기능한다.

PDF는 코퍼스 토큰의 2퍼센트 미만이지만, 텍스트 전용 파이프라인에서 손실될 약 680만 페이지에 걸쳐 비중복 시각·의미 다양성을 더한다. SEFD는 Mistral OCR 3로 PDF 첨부를 10페이지 배치로 처리하고, 픽셀 분산 필터로 거의 빈 페이지를 건너뛰며, HTML 테이블 출력을 요청해 이를 MultiMarkdown으로 변환한다.

벤치마크 구성

EDGAR-OCR는 시각적으로 렌더링된 SEC 테이블을 충실한 HTML 스타일 전사로 변환하는 작업을 평가한다. 원시 SEC 공시에서 손으로 고른 300개 테이블로 구성했으며, 학습-평가 오염을 줄이기 위해 각 테이블을 합성 인스턴스로 변환한다. 파이프라인은 원본 테이블을 MMD로 파싱하고 법인명과 값을 비식별화한 뒤, GPT-5.4(xhigh)로 행 단위 변수와 관계를 추출해 산술 관계를 보존하면서 수치를 치환한다. 결과 합성 테이블은 다시 필링 스타일 HTML로 렌더링·스크린샷되어 OCR 입력으로 쓰인다.

일부 SEC 테이블은 여러 유효한 전사를 허용하므로, 다중 정답 집합으로 정답 대안을 처벌하지 않는다. 300개 표본 중 241개가 적어도 하나의 대안 테이블을 가지며, 총 782개의 대안 전사가 존재한다. 채점은 예측 테이블을 셀 격자로 파싱해 정답 격자와 비교하며, 셀 내용·인라인 서식·격자 위치가 모두 일치하면 1.0점, 텍스트만 맞으면 0.5점, 내용은 맞지만 위치가 틀리면 0.25점을 준다.

EDGAR-Forecast는 모델이 과거 SEC 공시를 사용해 이후의 숨겨진 공시에 나타나는 수치를 예측할 수 있는지 평가한다. 각 인스턴스는 2026년 목표 10-Q 공시를 가진 회사를 중심으로 구성되며, 모델은 회사의 이전 공시 이력에 접근하지만 목표 공시 자체는 숨겨진다. 과제는 매출·비용·물량·백분율·주당 수치 등 숨겨진 공시의 다섯 개 수치를 예측하는 것이다.

벤치마크는 GPT-5.5(xhigh)로 후보 예측 대상을 생성해 구성했으며, 직전 5년 공시 이력을 종합적으로 사용해야 하는 대상을 고르도록 지시했다. 정답을 그대로 노출하거나 이전 공시에서 직접 복사된 값으로 보이는 후보는 결정적으로 거부하고, 사람이 검토해 저품질 표본을 제외했다. 최종 벤치마크는 50개 회사 인스턴스와 250개 대상으로 구성된다. 모든 모델은 동일한 오픈소스 Codex 하네스로 평가되며, 하네스는 이전 동일 발행인 공시·필링 색인·기본 로컬 파일/검색 연산만 노출하고 웹 접근은 허용하지 않는다.

주요 결과

코퍼스 분석

저자들은 3.0B 토큰 규모의 아카이브 전반 표본을 분석해 코퍼스 구성을 특성화했다. 표본을 외삽하면 1,850만 건의 공시, 19.8TB의 원시 EDGAR 소스 파일, 1.9TB의 파싱된 SEFD MultiMarkdown, 548.9B 파싱 토큰이 산출된다.

코퍼스는 정기 보고서만으로 지배되지 않는다. 가장 큰 다섯 개 필링 유형이 표본 토큰의 38.0퍼센트를 차지하며, ABS-EE, 485BPOS, NPORT-P, 8-K, 10-Q 순이다. 표준 10-K와 10-Q는 토큰의 9.6퍼센트에 그치고, Form 4는 표본 필링의 약 4분의 1을 차지하지만 토큰은 1.7퍼센트에 불과하다. 이는 필링 빈도와 학습 질량의 분포가 크게 다르다는 EDGAR의 반복되는 특징을 보여준다.

필링 길이도 매우 치우쳐 있다. 1k~10k 토큰 필링은 건수의 64.6퍼센트지만 토큰은 6.2퍼센트에 불과한 반면, 100k 토큰 이상 필링은 건수의 5.5퍼센트지만 토큰의 68.7퍼센트를 차지한다.

저자들은 SEFD의 MMD 표현이 원본 테이블 재구성에 충분한 구조를 보존하는지도 평가했다. 100개의 복잡한 합성 SEC 스타일 테이블에서 GPT-5.4(xhigh)에 SEFD(MMD), EdgarTools(Markdown), 일반 to_markdown 기준선의 파싱 결과만 주고 HTML로 테이블을 재구성하게 했다.

표현	조정 재현율	가중 재현율	정확 형태
SEFD MMD	94.5퍼센트	93.2퍼센트	89.0퍼센트
EdgarTools	75.7퍼센트	72.0퍼센트	79.0퍼센트
to_markdown	70.4퍼센트	64.7퍼센트	71.0퍼센트

SEFD MMD는 94.5퍼센트의 조정 재현율로 EdgarTools의 75.7퍼센트, to_markdown의 70.4퍼센트를 크게 앞섰다. 이는 SEFD의 재구성 선택과 MMD 스팬 표기가 토큰 효율을 유지하면서도 원본 레이아웃을 추론하기에 충분한 구조를 보존함을 보여준다.

EDGAR-OCR 결과

EDGAR-OCR에서는 Qwen3.6-35B-A3B가 가장 높은 조정 재현율을 기록했고, Mistral OCR 3가 근소한 차이로 뒤를 이으면서 훨씬 빨랐다.

모델	조정 재현율	중앙 총 지연시간
Qwen3.6-35B-A3B	75.78퍼센트	24.58초
Mistral OCR 3	75.33퍼센트	2.29초

정확도에서는 Qwen3.6-35B-A3B가 75.78퍼센트로 Mistral OCR 3의 75.33퍼센트를 앞섰다. 그러나 Mistral OCR 3는 약 11분의 1 수준의 중앙 지연시간으로 거의 같은 점수에 도달해 생산 환경에서 파레토 최적 선택이었고, 그래서 고처리량 SEFD 파이프라인에 채택되었다. 서식 보존은 여러 시스템에서 의미 있는 한계로 남았는데, 복구 가능한 인라인 마크업을 내보내지 못하는 모델은 텍스트와 위치에서 좋은 점수를 받아도 굵게·기울임·밑줄·위첨자·아래첨자 구조를 보존하지 못할 수 있다.

EDGAR-Forecast 결과

EDGAR-Forecast에서는 GPT-5.5가 51.8퍼센트로 최고점을 기록했다.

모델	점수	필링 이력과의 상관(r)
GPT-5.5	51.8퍼센트	플러스 0.38
GPT-5.4	48.2퍼센트	플러스 0.20
Gemini 3.1 Pro	45.2퍼센트	플러스 0.15
Claude Opus 4.7	42.6퍼센트	플러스 0.22

이 과제는 계획·검색·문맥 추론을 결합하기 때문에 프런티어 모델에게도 어렵다. 모델은 필링당 다섯 개 대상을 답해야 하고, 관련 과거 값을 찾아 주변 서술과 테이블 문맥을 해석하며, 그 신호를 필링 근거 예측으로 종합해야 한다. 점수는 모든 모델에서 가시 필링 이력과 양의 상관을 보였으며, GPT-5.5에서 가장 강했다. 벤치마크는 토큰 집약적이어서 총 평가 사용량은 GPT-5.4의 131.6M 토큰부터 Claude Opus 4.7의 188.8M 토큰까지 분포했고, 대부분 긴 필링 이력에 대한 캐시 입력이었다. GPT-5.5는 최고 점수를 내면서 Gemini 3.1 Pro나 Claude Opus 4.7보다 적은 토큰을 써 정확도-토큰 절충에서 가장 우수했다.

한계와 주의사항

SEFD는 현재 내장 이미지를 파싱하지 않으며, PDF 파생 콘텐츠는 OCR 품질에 의존한다. 파서 커버리지는 새로 도입되거나 변경된 SEC 필링 스키마, 특히 드문 XML 분기나 비정형 조건부 경로에서 뒤처질 수 있다. 극도로 레이아웃이 많은 필링은 표준 HTML·XML·SGML·플레인텍스트 필링보다 낮은 충실도의 재구성을 낼 수 있다.

EDGAR-OCR 측면에서는 서식 보존이 핵심 한계로 남아 있어, 텍스트와 셀 배치가 정확해도 인라인 서식 신호를 복구 가능한 형태로 내보내지 못하는 모델이 존재한다. N-PORT 같은 스키마 조합 폭발 때문에 SEFD는 의미적으로 중요하고 빈번한 구조를 우선하며, 드문 분기나 비정형 조건부 경로는 매핑되지 않을 수 있다고 인정한다. 또한 99% 이상의 구조적·의미적 정확도는 대략 100페이지당 이해를 깨뜨리는 오류 1건 정도로 환산된다.

결론

SEFD는 SEC EDGAR 아카이브를 토큰 효율적인 MultiMarkdown으로 레이아웃 충실하게 재구성한 결과다. 이질적인 플레인텍스트·HTML·XML·SGML·PDF 필링을, 텍스트 전용 추출에서 흔히 손실되는 재무 테이블·들여쓰기·문서 계층·시각 구조를 보존하는 표준 표현으로 변환한다. 결과 코퍼스는 Common Crawl 파생 코퍼스와 중복이 낮은 장문맥 재무 문서의 공개 소스이며, 약 13억 페이지 분량의 재구성 필링 콘텐츠에 해당한다.

분석은 SEFD의 학습 신호가 필링 유형·소스 형식·길이에 걸쳐 매우 고르지 않음을 보여준다. 고빈도 폼이 반드시 고토큰 폼은 아니며, 소수의 긴 필링 꼬리가 대부분의 코퍼스 질량을 기여한다. EDGAR-OCR와 EDGAR-Forecast는 고충실도 필링 재구성이 검색 중심 탐색을 넘어 재무 언어 모델링·장문맥 사전학습·재무 추론·문서 이해·평가를 지원하는 실용적 자원임을 보여준다.

Reference

The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data (arXiv)

AI Benchmark Evaluation