AI IQ : 17개 벤치마크로 AI 모델의 지능과 EQ, 비용을 동시에 측정하는 플랫폼
목차
개요
AI IQ는 인공지능 모델의 지능 수준을 정량적으로 추정해 비교하는 분석 플랫폼이다. “How smart is your AI model, really?”라는 슬로건 아래, 공개 벤치마크 리더보드를 기반으로 IQ, EQ, 비용 효율성 세 가지 축으로 모델을 평가한다. Ryan Shea가 운영하는 이 사이트는 17개 공개 벤치마크를 5개 추론 차원으로 묶고, 보정된 난이도 곡선으로 IQ 값을 산출한다. 단순 리더보드와 달리 게이미피케이션 저항성, 보수적 결측값 대체, 비용 가중 트레이드오프 분석을 핵심 설계 원칙으로 삼는다.
배경
기존 LLM 리더보드는 벤치마크별 정답률만 보여줄 뿐, 모델 간 능력을 직관적으로 비교하기 어렵다. 또한 일부 벤치마크는 훈련 데이터 오염과 게이미피케이션 위험에 노출되어 있어, 단순 평균만으로는 신뢰할 만한 비교가 어렵다. AI IQ는 이런 문제를 해결하기 위해 인간 IQ 분포를 은유로 활용한 표준화된 척도를 제공한다. 이를 통해 사용자는 “이 모델은 평균보다 얼마나 똑똑한가”, “1 IQ 포인트 더 받는 데 얼마나 비용이 드는가” 같은 질문에 직관적으로 답할 수 있다.
핵심 내용
IQ 측정 프레임워크
AI IQ는 5단계 절차로 IQ를 계산한다. 공개 리더보드에서 점수를 수집하고, 보정된 난이도 곡선으로 IQ에 매핑한 뒤, 17개 벤치마크를 5개 차원에 배치한다. 부족한 데이터는 보수적 규칙으로 보완하며, 5개 차원의 평균이 최종 복합 IQ가 된다.
5대 추론 차원은 다음과 같다.
| 차원 | 설명 | 대표 벤치마크 |
|---|---|---|
| Fluid Abstraction | 새로운 문제 해결과 유동적 추상화 | ARC-AGI-2, ARC-AGI-1 |
| Mathematical Reasoning | 수학적 추론 | FrontierMath Tier 4, AIME, ProofBench |
| Programmatic Reasoning | 코드와 SW 엔지니어링 | SWE-Bench Verified, SWE-Bench Pro, LiveCodeBench |
| Critical Reasoning | 비판적 사고와 전문 지식 | Humanity’s Last Exam, CritPt, GPQA Diamond, SciCode |
| Agentic Reasoning | 도구와 실환경 작업 수행 | Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, Toolathlon |
원점수를 IQ로 변환하는 핵심은 앵커포인트 사이의 분할선형보간법이다. 구간별로 다음 식이 적용된다.
1
IQ = a_i + (s - s_i) / (s_{i+1} - s_i) * (a_{i+1} - a_i)
앵커 범위를 벗어나는 점수는 외삽하지 않고 경계값 IQ를 그대로 적용한다. 복합 IQ를 산출하려면 최소 2개 차원의 점수가 필요하며, 이를 만족하지 않으면 Unranked 또는 Provisional 상태로 표시된다.
벤치마크 압축과 결측값 보완
AI IQ는 게이미피케이션 위험이 높은 벤치마크의 천장 IQ를 인위적으로 낮춘다. 이를 통해 데이터 오염이나 훈련 누수로 부풀려진 점수가 모델 순위에 과도하게 반영되는 것을 막는다.
| 벤치마크 | 원래 천장 | 압축 천장 | 사유 |
|---|---|---|---|
| AIME | 146 | 135 | 훈련 데이터 오염 감지 10~20점 |
| SWE-Bench | 144 | 128 | 가장 공격적인 압축 적용 |
| GPQA Diamond | 148 | 135 | 공개 데이터셋 오염 위험 |
압축 공식은 IQ 100을 기준으로 그 이상의 차이만 비율로 축소한다.
1
IQ_compressed = 100 + (IQ_orig - 100) * (C_new - 100) / (C_orig - 100)
이 방식은 하드 상한선이 모델 간 차별성을 완전히 제거하는 부작용을 피하고, 상대적 순위는 유지한 채 이점 폭만 줄이는 효과를 낸다.
데이터가 없는 벤치마크는 두 단계로 보완한다. 먼저 해당 모델이 다른 벤치마크에서 보인 차원 평균 IQ를 구하고, 동시에 실제 측정된 점수 분포의 80 백분위수를 계산해, 두 값 중 작은 값을 결측 IQ로 사용한다.
1
IQ_imputed = min(avg(IQ_available), P_80(benchmark))
이 과정은 5단계 폭포식 우선순위를 따른다. 원본 점수가 있으면 그대로 사용하고, 없으면 직접 선행 모델 데이터, 역사적으로 0에 가까운 하드 벤치마크 가정, 동일 차원 다른 벤치마크로부터의 추정, 마지막으로 차원 전체 대체 순서로 적용한다. 차원 대체 시에는 유사 능력 모델들의 하위 사분위수를 상한으로 사용해 과대 추정을 막는다.
EQ 측정 방법론
EQ는 세 가지 신호를 결합해 산출한다. EQ-Bench 3는 Claude가 판정하는 정서적 롤플레이 평가로, Elo 200에서 EQ 78, Elo 2000에서 EQ 140으로 매핑된다. LM Arena Elo는 인간 투표 기반 대화 품질로, 1100에서 EQ 70, 1520에서 EQ 140이다. IFBench는 지시 이행 정확도를 측정하며 0퍼센트에서 EQ 70, 100퍼센트에서 EQ 145로 변환된다.
| 신호원 | 의미 | 범위 매핑 |
|---|---|---|
| EQ-Bench 3 Elo | Claude 판정 정서 롤플레이 | 200 → 78, 2000 → 140 |
| LM Arena Elo | 인간 투표 대화 품질 | 1100 → 70, 1520 → 140 |
| IFBench 퍼센트 | 지시와 제약 준수율 | 0퍼센트 → 70, 100퍼센트 → 145 |
Anthropic 모델에는 EQ-Bench 3 Elo에서 100점을 차감하는 스타일 편향 보정이 적용된다. Claude가 판정자 역할을 맡는 구조 때문에 자기 가족 모델에 우호적인 편향이 발생할 수 있어, 이를 상쇄하기 위한 보수적 조정이다. 복합 EQ는 최소 2개 신호원이 있어야 산출되며, 가용 신호의 평균으로 정의된다.
비용과 효율성 분석
Effective Cost는 단순 가격 카드 가격이 아니라 모델이 실제로 작업을 끝내는 데 드는 비용을 추정한다. 기준 작업은 200만 토큰 입력에 100만 토큰 출력이다.
1
StickerPrice = 2 * p_input + p_output
여기에 사용량 승수를 곱해 실제 비용을 산출한다. 사용량 승수는 벤치마크별 비용 잔차와 직접 토큰 사용률의 기하평균으로 계산되며, 역수로 표시되어 2 곱하기는 중간값의 절반만 사용한다는 뜻이다.
1
2
UsageMultiplier = geomean(BenchmarkUsage_b, DirectTokenUsage)
EffectiveCost = StickerPrice * UsageMultiplier
Tradeoffs 페이지에서는 등선 곡선을 통해 IQ와 비용을 동시에 비교한다. 사용자는 품질과 비용의 가중치 비율을 조정하며, 1대 1 비율에서는 1 IQ 포인트 향상이 1회분 비용 절감과 동일한 가치로 평가된다. IQ vs EQ, IQ vs Effective Cost, 그리고 세 축을 동시에 보는 3D 산점도까지 시각화로 제공된다.
의미와 시사점
AI IQ가 강조하는 가장 중요한 메시지는 “IQ는 은유이지 인간 IQ와 동등하지 않다”는 점이다. 초인간 범위에서는 점수 1점이 인간 범위에서의 1점과 같은 의미가 아니며, 동일 차원 내에서도 깊이보다 너비를 반영한다. 이런 한계를 명시한 뒤에도 사이트는 모델 비교를 위한 단일 통화 단위로서 IQ를 활용한다.
방법론적으로 흥미로운 부분은 게이미피케이션에 대한 명시적 저항 설계다. 오염 위험이 높은 벤치마크는 천장을 압축하고, 결측값은 80 백분위수와 차원 평균 중 작은 값을 택하는 보수적 규칙을 적용한다. 이는 단순 평균 리더보드가 가지는 구조적 문제 즉 일부 강한 벤치마크가 전체 점수를 왜곡하는 효과를 줄여 준다.
또한 EQ를 별도 축으로 분리한 점은 실용적이다. 추론 성능만 높은 모델과 대화 품질이 좋은 모델, 지시 이행이 정확한 모델은 실제 사용 맥락이 다르다. Anthropic 모델에 적용된 100포인트 차감 같은 보정은 평가자 편향을 인정하는 학술적 태도로 볼 수 있다.
비용 축에서는 사용량 승수가 핵심이다. 추론 모델이 많은 토큰을 소비하는 현실에서, 가격 카드만으로는 실제 비용을 알 수 없다. 2대 1 입출력 비율과 기하평균 기반 승수는 정량적 비교를 위한 합리적 기준이며, Iso-curves는 사용자가 선호도를 직접 조정해 의사결정에 활용하도록 돕는다.
결론
AI IQ는 LLM 비교를 위한 또 하나의 리더보드가 아니라, 게이미피케이션 저항과 보수적 추정을 명시적 설계 원칙으로 삼은 메타 평가 도구다. 17개 벤치마크를 5개 차원으로 묶고, 천장 압축과 결측값 보완 규칙으로 단일 IQ 스칼라를 산출한 뒤, EQ와 Effective Cost를 동축에 배치해 실용적 모델 선택을 돕는다. 방법론 자체가 공개되어 있고 한계점을 명시적으로 인정하므로, 모델 선정 의사결정의 출발점으로 활용 가치가 높다. 주간 뉴스레터를 통해 새 모델 등장과 비용 우승자 변동을 추적할 수 있으므로, AI 모델을 도입하거나 교체를 검토하는 팀에게는 참고 지점이 될 수 있다.