Gemini-SQL2: BIRD 벤치마크 80.04점을 기록한 텍스트-투-SQL의 도약
목차
개요
구글이 자연어를 실행 가능한 SQL 쿼리로 변환하는 텍스트-투-SQL 모델 Gemini-SQL2를 공개했다. Gemini-SQL2는 Gemini 3.1 Pro를 기반으로 하며, BIRD 단일 모델 리더보드에서 실행 정확도 80.04%를 기록했다. 이는 2025년 11월 구글이 세운 직전 기록 76.13%를 끌어올린 결과다.
GoogleResearch는 발표에서 Gemini-SQL2가 “경쟁이 치열한 BIRD 벤치마크에서 SOTA(state-of-the-art) 결과를 달성했다”고 밝혔다. 또한 “데이터의 미묘함과 복잡한 비즈니스 맥락 때문에 자연어로부터 정확한 SQL을 생성하는 일은 악명 높을 정도로 어렵다”고 강조했다. BIRD 벤치마크는 실행 검증 정확도를 측정하기 때문에, Gemini-SQL2가 생성한 SQL은 “그럴듯하게 보이는 데 그치지 않고 실제로 성공적으로 실행된다”는 점이 핵심이다.
이 글에서는 BIRD 벤치마크의 의미, 구글이 모델을 어떻게 특화시켰는지, 그리고 80% 정확도가 엔터프라이즈 환경에서 갖는 의미와 리스크를 정리한다.
BIRD 벤치마크와 성능
BIRD는 자연어 질문과 SQL 쌍을 평가하는 텍스트-투-SQL 벤치마크다. 데이터셋은 12,751개의 질문-SQL 쌍으로 구성되며, 37개 전문 도메인에 걸친 95개 데이터베이스를 포함한다. 전체 크기는 33.4GB에 달하고, “더티 값(dirty values)”과 외부 지식 그라운딩을 요구한다. 이런 특성 때문에 BIRD는 기존 Spider 같은 벤치마크보다 더 엄격한 평가로 평가받는다.
실행 검증 정확도란
BIRD의 핵심 지표는 실행 정확도(execution accuracy)다. 이 지표는 생성된 SQL이 오류 없이 실행되는지, 그리고 기대한 결과 행을 정확히 반환하는지를 함께 본다. 즉 문법적으로만 올바른 쿼리가 아니라, 실행했을 때 정답 데이터를 돌려주는 쿼리만 정답으로 인정한다. Gemini-SQL2의 80.04%는 이렇게 실행 검증을 통과한 비율을 의미한다.
다만 인간 성능 기준선은 92.96%로, Gemini-SQL2와는 여전히 12.92점의 격차가 남아 있다. BIRD가 매우 큰 스키마에 대한 추론, 모호한 값 처리, 외부 비즈니스 지식 결합 같은 실제 현실의 난제를 테스트하기 때문이다.
리더보드 위치
Gemini-SQL2는 명명된 경쟁 모델 가운데 1위를 기록했다. 구글은 Gemini-SQL2와 약 77.2%의 직전 Gemini-SQL로 리더보드 상위 두 자리를 동시에 차지하고 있다.
아래는 marktechpost가 정리한 BIRD 단일 모델 리더보드의 주요 경쟁 구도다.
| 모델 | 실행 정확도 |
|---|---|
| Gemini-SQL2 (Gemini 3.1 Pro) | 80.04% |
| Gemini-SQL (직전) | 약 77.2% |
| AWS Q-SQL | 약 76.5% |
| Databricks RLVR 32B | 약 75.7% |
| 인간 기준선 | 92.96% |
흥미로운 점은 일부 32B 규모의 특화 모델이 일부 범용 프런티어 모델을 앞선다는 사실이다. 이는 텍스트-투-SQL이 모델 크기만이 아니라 도메인 특화 학습에 크게 좌우됨을 시사한다.
windowsforum은 범용 프런티어 모델과의 격차도 함께 전한다. 인용된 결과에 따르면 Gemini-SQL2의 80.04%는 OpenAI GPT-5.5-xhigh의 약 72.8%, Anthropic Claude Opus 4.6의 약 70.9%를 7점 이상 앞선다. 프런티어 모델끼리 소수점 단위로 순위를 다투는 분야에서 7점 이상의 격차는 잡음으로 보기 어렵다. 다만 이 수치는 특정 평가 조건에서 보고된 값이라는 점, 그리고 실제 기업 데이터 웨어하우스에서는 결과가 달라질 수 있다는 점을 함께 읽어야 한다.
Gemini가 데이터베이스를 이해하는 방법
구글 클라우드는 모델이 데이터베이스를 깊이 이해하도록 만드는 방법을 별도로 공개했다. 이 글에서 구글 클라우드는 BIRD 단일 학습 모델 트랙에서 76.13점을 기록해 다른 단일 모델 솔루션을 앞섰다고 밝혔다. 핵심은 3단계 특화 레시피와 데이터베이스별 컨텍스트 최적화다.
3단계 특화 레시피
| 단계 | 내용 |
|---|---|
| 1단계 데이터 필터링 | 모든 쿼리를 실행해 실패, 오류, 빈 결과를 제거하고 여러 LLM을 심판으로 사용해 질문과 SQL의 의미 정합성을 검증한다 |
| 2단계 멀티태스크 학습 | Vertex AI의 Gemini 지도 튜닝 API로 Gemini 2.5-pro를 베이스로 삼아 추론, 계획, 자기 교정 같은 관련 태스크를 동시에 학습한다 |
| 3단계 테스트 타임 스케일링 | 같은 질문에 여러 쿼리 후보를 생성하고 실행 결과로 클러스터링해 가장 큰 클러스터의 대표 쿼리를 선택한다 |
1단계는 “쓰레기를 넣으면 쓰레기가 나온다”는 원칙에 따라 깨끗한 학습 데이터를 확보하는 과정이다. 2단계는 단순한 질문-쿼리 매핑을 넘어 스키마 이해, 비즈니스 로직 파악, 쿼리 계획, 자기 교정 같은 암묵적 하위 태스크를 가르친다. 3단계는 자기 일관성(self-consistency)을 활용하며, 후보를 1~7개로 제한하는 “Few” 카테고리가 효율 면에서 최적이라고 설명한다. 모델이 서로 다른 추론 경로로 같은 결론에 도달할 때 정답 확률이 높아진다는 원리다.
데이터베이스 컨텍스트 최적화
구글 클라우드는 프로덕션 배포 시 두 가지 방향을 제시한다.
첫째는 앙상블 또는 에이전트 기반 시스템에 특화 모델을 통합하는 방식이다. 여기에는 예시 검색 같은 전처리, CHASE-SQL 연구처럼 에이전트 스캐폴딩, 동적 퓨샷 검색, 스키마 전처리가 포함된다.
둘째는 고객에게 권장하는 데이터베이스별 최적화다. 메타데이터 품질을 높이고, 자신의 데이터베이스에 맞춘 쿼리 예시를 제공하며, 조직 고유의 데이터 패턴으로 파인튜닝하는 방법이다. 구글 클라우드 블로그는 깨끗한 데이터로 시작하고, 여러 관련 태스크를 가르치며, 효율적인 추론 스케일링을 사용하고, 자신의 데이터베이스에 맞게 최적화하라고 정리한다.
실제 적용 사례로는 AlloyDB AI의 자연어 기능, BigQuery의 대화형 분석, 그리고 Spanner와 AlloyDB, Cloud SQL Studio에 걸친 Google Code Assist의 SQL 생성이 언급된다. 다만 구글 클라우드는 운영 데이터에 대한 자연어 질의가 프로덕션 신뢰를 얻으려면 거의 100%에 가까운 정확도가 필요하다고 강조한다.
엔터프라이즈 활용과 리스크
Gemini-SQL2는 여러 엔터프라이즈 시나리오에서 활용될 수 있다. 복잡한 조인과 날짜 연산이 필요한 셀프서비스 분석, 개발자가 BigQuery 변환을 처음부터 코딩하는 대신 초안을 검토하는 데이터 엔지니어링, SaaS 팀이 자연어 질의 기능을 임베드하는 인터페이스 등이 그 예다.
그러나 80% 정확도는 다섯 개 쿼리 중 하나가 수정이 필요할 수 있다는 의미이기도 하다. SQL은 실행되더라도 잘못된 데이터를 반환하면 비즈니스 의사결정에 직접적인 오류를 일으킬 수 있다. 실행 정확도라는 지표가 엄격하다는 점이 오히려 이 리스크를 분명하게 보여준다.
현재 Gemini-SQL2는 API, 모델 카드, 기술 보고서가 공개되지 않은 상태다. 발표는 해당 역량이 존재함을 확인했을 뿐 배포 일정은 확정되지 않았다. marktechpost는 이미 Gemini 기반 SQL 생성을 제공하는 BigQuery Studio, AlloyDB AI, Cloud SQL Studio에 통합될 가능성이 높다고 전망한다.
| 활용 영역 | 고려할 리스크 |
|---|---|
| 셀프서비스 분석 | 복잡한 조인 결과의 검증 부담 |
| 데이터 엔지니어링 초안 | 생성 코드의 사람 리뷰 필수 |
| 임베디드 자연어 질의 | 다섯 중 하나가 수정 필요할 수 있음 |
따라서 엔터프라이즈는 Gemini-SQL2를 사람의 검토를 대체하는 도구가 아니라 초안을 빠르게 만들어 주는 보조 도구로 보는 편이 안전하다.
비즈니스 로직이라는 진짜 난제
windowsforum은 진짜 적은 SQL 문법이 아니라 비즈니스 로직이라고 지적한다. 대부분의 프로덕션 데이터는 그 자체로 설명되지 않는다. 테이블은 제품 이력, 조직의 정책, 마이그레이션, 예외 처리, 타협의 산물을 반영한다. status라는 컬럼이 신입 분석가가 생각하는 의미와 다를 수 있고, 하나의 행이 이벤트인지 스냅샷인지 거래인지 보정값인지 ETL 산물인지 모호할 수 있다.
“활성 고객(active customer)”이라는 정의조차 대시보드마다 다르다. 한 대시보드에서는 무료 체험을 제외하고, 다른 대시보드에서는 일시정지 구독을 포함하며, 2년 전 가격 정책 변경 이후 정의가 바뀌었을 수 있다. 이런 의미 정보는 BI 대시보드, dbt 모델, 저장 프로시저, 스프레드시트, 지라 티켓, 그리고 파이프라인을 만든 담당자의 기억에 흩어져 있다. 모델은 테이블 이름만으로 이 모든 것을 추론할 수 없다.
그래서 다음 단계의 텍스트-투-SQL 경쟁은 더 우아한 쿼리를 생성하는 능력이 아니라, 자연어를 거버넌스된 정의에 결합하고, 모호한 질문에 되묻고, 어떤 테이블과 지표를 사용했는지 설명하는 능력에서 갈린다. 질문이 불충분하게 명세되었을 때 즉시 답하기보다 명확화를 요청하는 시스템이 더 안전하다. “월간 매출”을 물었을 때 어떤 매출 정의인지, 환율은 어떻게 처리하는지, 환불은 차감하는지, 기준 날짜가 청구일인지 결제일인지를 되묻는 편이 낫다.
보안 모델이 곧 제품이 된다
자연어 시스템이 SQL을 생성할 수 있게 되면 보안은 경계(perimeter)에서 프롬프트 안으로 이동한다. SQL을 직접 쓰지 못하는 사용자도 민감한 데이터 조각을 요청할 수 있게 된다. 어시스턴트가 광범위한 데이터베이스 권한을 가지고 있다면, 자연어 인터페이스 자체가 데이터 유출과 정책 위반의 새로운 경로가 된다.
따라서 쿼리 어시스턴트는 행 수준 보안, 컬럼 마스킹, 테넌트 경계, 감사 로깅, 데이터 손실 방지(DLP) 규칙, 승인 워크플로를 존중해야 한다. 또한 메타데이터, 문서, 주석처럼 모델이 컨텍스트로 가져오는 콘텐츠를 통한 프롬프트 인젝션에도 견뎌야 한다. 최악의 시나리오는 악의적인 초지능이 아니라, 선의의 직원이 “이탈 가능성이 높은 고객을 모두 보여줘”라고 물었을 때 자신의 역할이 접근할 수 있는 범위를 넘어선 개인식별정보를 받는 상황이다. 혹은 모호하게 표현된 질문 때문에 모델이 테라바이트를 스캔하는 교차 조인을 생성하는 경우다.
분석가 역할의 변화와 미공개 논문
windowsforum은 분석가가 사라지기보다 역할이 바뀐다고 본다. 자연어 SQL 생성이 일반적인 경우에 충분히 신뢰할 만해지면, 분석가는 정형화된 조인을 직접 작성하는 시간을 줄이고 정의를 검증하고 이상치를 조사하며 결과를 의사결정으로 전환하는 데 집중하게 된다. 다만 빠른 속도로 자신 있게 틀린 답을 내놓는 시스템을 감독해야 하므로 더 강한 판단력이 요구된다. DBA와 데이터 엔지니어는 웨어하우스를 “AI가 읽기 쉽게” 만드는 압박을 받는다. 더 나은 설명, 깨끗한 명명, 풍부한 메타데이터, 문서화된 계보, 엄격한 접근 정책이 곧 AI 인프라가 된다.
가장 큰 한계는 구글 리서치가 아직 논문이나 공개 모델 세부 정보를 내놓지 않았다는 점이다. 외부에서는 헤드라인 수치만 있고 그 뒤의 메커니즘은 알 수 없다. 점수가 모델 개선에서 왔는지, 프롬프팅 전략, 스키마 검색, 테스트 타임 스케일링, 쿼리 교정, 벤치마크 특화 튜닝 가운데 무엇에서 왔는지 구분되지 않는다. 텍스트-투-SQL 벤치마크는 하니스 설계에 민감하다. 여러 번 시도하고 중간 쿼리를 실행하며 오류를 관찰해 스스로 교정하는 시스템은, 한 번에 SQL을 내놓아야 하는 단일 패스 모델과 같은 일을 하는 것이 아니다. 따라서 공개 벤치마크 점수는 후보를 식별하는 신호일 뿐, 프로덕션 준비 인증서가 아니다. 기업은 자사 스키마, 워크로드, 권한, 비용 제약으로 직접 평가셋을 구성해 검증해야 한다.
결론
Gemini-SQL2는 Gemini 3.1 Pro를 기반으로 BIRD 단일 모델 리더보드에서 80.04%라는 새로운 기록을 세웠다. 구글 클라우드가 공개한 데이터 필터링, 멀티태스크 학습, 테스트 타임 스케일링의 3단계 레시피는 텍스트-투-SQL 특화가 단순한 규모 확장이 아님을 보여준다. 실행 검증 정확도라는 엄격한 지표 위에서 80%를 달성한 점은 의미가 크지만, 인간 기준선 92.96%와의 격차와 다섯 중 하나의 오류 가능성은 여전히 사람의 검토가 필요함을 말해 준다. 자연어 질의가 데이터 서비스 전반의 진입 장벽을 낮추는 방향으로 발전하는 가운데, 정확도와 거버넌스의 균형이 엔터프라이즈 도입의 관건이 될 것이다.