포스트

BIRD: 대규모 데이터베이스 기반 Text-to-SQL 평가 벤치마크

목차

  1. 개요
  2. BIRD가 풀려는 문제
  3. 평가 방식과 리더보드
  4. BIRD 시리즈로 확장되는 생태계
  5. 결론
  6. Reference

개요

BIRD는 BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluation의 약자다. 자연어 질문을 SQL로 변환하는 모델의 성능을, 실제 규모의 데이터베이스 환경에서 평가하기 위해 만들어진 벤치마크다. 기존 Text-to-SQL 벤치마크가 깔끔하게 정제된 소규모 DB를 사용했다면, BIRD는 “광범위한 데이터베이스 규모가 파싱에 미치는 영향”을 정면으로 다룬다. NeurIPS 2023에 Spotlight로 채택된 연구이며, 이후 여러 후속 벤치마크로 확장되며 하나의 생태계를 이루고 있다.

BIRD가 풀려는 문제

데이터셋 구성

BIRD는 단순히 질문 수가 많은 것을 넘어, 실무 데이터의 복잡성을 그대로 담으려 한다.

항목내용
질문-SQL 쌍12,751개 이상
데이터베이스95개 (총 33.4GB)
도메인37개 전문 분야 (블록체인, 하키, 의료, 교육 등)
개발 세트1,534개 항목
Mini-Dev500개 고품질 예제

특히 Mini-Dev는 SQLite, MySQL, PostgreSQL 세 가지 방언을 모두 제공한다. 이는 모델이 특정 DB 시스템에만 최적화되지 않았는지를 교차 검증하기 위함이다.

핵심 도전 과제

BIRD가 어려운 이유는 세 가지 특성에서 나온다.

첫째, 현실의 더러운 데이터다. 데이터베이스 값들이 비표준 형식 그대로 유지되므로, 파서는 추론 전에 값을 분석하고 형식을 맞춰야 한다.

둘째, 외부 지식 요구다. 예를 들어 account.type = 'OWNER' 라는 조건은 “대출 조건에서 계정 타입이 소유자여야 한다”는 외부 지식에서 추론되어야 한다. 스키마만 봐서는 답을 만들 수 없는 질문이 포함되어 있다.

셋째, 효율성 강조다. BIRD는 의미론적 파서가 단순히 정확할 뿐 아니라, 효율적인 SQL 쿼리를 생산하도록 권장하는 첫 번째 벤치마크다. 실무 데이터 분석에서는 같은 결과를 내더라도 느린 쿼리는 비용이 되기 때문이다.

평가 방식과 리더보드

평가 지표

BIRD는 정확도뿐 아니라 효율성까지 측정한다.

지표설명
EX (Execution Accuracy)생성된 SQL이 정확한 결과를 반환하는지 측정하는 주요 지표
R-VES보상 기반 유효 효율성 점수, 2024년 8월부터 효율성 지표로 사용
Soft-F1편향을 줄이기 위해 Mini-Dev에서 사용

리더보드 결과

사람의 성능은 데이터 엔지니어와 대학생 조합 기준으로 개발 세트에서 92.96%를 기록했다. 반면 상위 모델들은 아직 이 선에 도달하지 못했다.

순위모델기관테스트 점수
1AskData + GPT-4oAT&T CDO81.95%
2Agentar-Scale-SQLAnt Group81.67%
3Xiaomi Text2SQLXiaomi80.83%

최고 성과 모델조차 사람 성능과 약 10~15% 격차가 존재한다. 또한 R-VES 리더보드에서 효율성 점수는 정확도 점수보다 낮게 나타난다. 정확한 쿼리를 만드는 것과 효율적인 쿼리를 만드는 것은 별개의 도전이라는 의미다. Mini-Dev에서는 방언 간 편차도 크다. TA-SQL과 GPT-4 조합은 SQLite 58.00%, MySQL 49.20%, PostgreSQL 50.80%로, 같은 모델도 DB 시스템에 따라 성능이 달라진다.

BIRD 시리즈로 확장되는 생태계

BIRD는 단일 벤치마크에서 멈추지 않고 여러 후속 작업으로 확장되었다.

벤치마크초점
BIRD-CRITIC (SWE-SQL)다중 방언 SQL 이슈 추론, 500개 고품질 사용자 문제
BIRD-INTERACT대화형 및 에이전트 상호작용 모드 평가
LiveSQLBench오염 없는 Text-to-SQL, 주석 RDB와 테스트 케이스 포함
GenUI-Agent생성 UI를 통한 인간-에이전트 상호작용 연구

BIRD-INTERACT에서는 흥미로운 발견이 있었다. 상위 성과가 o3-mini 24.4%, Claude-3.7-Sonnet 17.78% 수준으로 낮은데, “상호작용-시간 스케일링(ITS)” 현상이 관찰되었다. 연장된 상호작용을 통해 성능이 향상된다는 것으로, 이 벤치마크는 ICLR 2026 구두 발표로 채택되었다. SWE-SQL은 NeurIPS 2025 메인 트랙에 채택되었다.

결론

BIRD는 Text-to-SQL을 “깔끔한 학술 문제”에서 “지저분한 실무 문제”로 끌어내린 벤치마크다. 현실의 더러운 데이터, 외부 지식, 효율성이라는 세 가지 축은 단순 정확도 경쟁을 넘어선 평가를 가능하게 한다. 상위 모델조차 사람 성능에 10% 이상 못 미치고, 효율성과 방언 일관성에서 추가 과제가 남아 있다는 점은 이 분야가 아직 갈 길이 멀다는 것을 보여준다. 동시에 BIRD-CRITIC, BIRD-INTERACT, LiveSQLBench로 이어지는 확장은, 평가 기준 자체가 모델의 발전 속도를 따라 진화하고 있음을 보여준다.

Reference