포스트

Taalas - LLM 가중치를 실리콘에 새기다, 초당 17,000 토큰 ASIC 칩

목차

  1. 개요
  2. GPU 기반 추론의 한계
  3. Taalas의 기술적 접근
  4. 성능 비교
  5. 한계와 제약사항
  6. 결론
  7. Reference

개요

스타트업 Taalas가 LLM 추론 방식을 근본적으로 바꾸는 접근을 선보였다. Llama 3.1 8B 모델의 가중치를 GPU 메모리에 저장하는 대신 ASIC 칩의 물리적 트랜지스터로 직접 구현한 것이다. 이 방식으로 초당 17,000 토큰이라는 놀라운 추론 속도를 달성했다. A4 용지 약 30페이지 분량을 1초 안에 생성할 수 있는 속도다.

GPU 기반 추론의 한계

현재 LLM 추론에서 GPU를 사용하면 필연적으로 메모리 병목이 발생한다. 32개 레이어로 구성된 모델의 경우, 각 레이어마다 VRAM과 컴퓨트 코어 사이에서 가중치를 반복적으로 불러와야 한다. 이 반복적인 데이터 이동이 추론 속도를 제한하는 핵심 원인이다. 데이터 이동에 소모되는 에너지도 전체 전력 소비의 상당 부분을 차지한다.

Taalas의 기술적 접근

가중치 실리콘 내재화

Taalas는 모델의 32개 레이어 가중치를 모두 실리콘에 물리적 트랜지스터로 구현했다. 입력 데이터가 전기 신호 형태로 하드와이어드된 레이어들을 순차적으로 통과한다. “파이프라인 레지스터”를 통해 중간 결과를 외부 메모리에 저장하지 않고 연속적으로 처리한다. 이 방식으로 메모리 병목 문제를 근본적으로 해결했다.

Magic Multiplier

Taalas가 개발한 “Magic Multiplier”라는 특수 구조가 핵심 기술이다. 4비트 데이터의 곱셈 연산을 단일 트랜지스터에서 수행할 수 있다. 이 혁신적인 구조 덕분에 칩 면적과 전력 소비를 크게 줄이면서도 높은 연산 성능을 달성했다.

메모리 아키텍처

외부 DRAM 없이 온칩 SRAM만 사용한다. 온칩 SRAM은 두 가지 용도로 활용된다.

용도설명
KV 캐시대화 컨텍스트 저장
LoRA 어댑터파인튜닝을 위한 어댑터 가중치

성능 비교

Taalas는 GPU 기반 시스템 대비 다음과 같은 성능 개선을 주장한다.

항목Taalas ASICGPU 기반
추론 속도10배 빠름기준
소유 비용10배 저렴기준
전력 소비10분의 1기준
토큰 속도초당 17,000약 1,700 수준

이 성능을 달성하면서도 모델은 Llama 3.1 8B 전체를 완전하게 실행한다.

한계와 제약사항

이 기술은 몇 가지 중요한 제약사항이 있다.

가장 큰 제약은 단일 모델 전용 칩이라는 점이다. CD-ROM처럼 한번 제작하면 다른 모델로 재프로그래밍이 불가능하다. 새로운 모델 버전이 나오면 새로운 칩을 제작해야 한다.

다행히 Taalas는 범용 트랜지스터 그리드를 설계해 새 모델 칩 개발 시간을 약 2개월로 단축했다. 칩 전체를 새로 설계하지 않고 상단 두 개의 마스크만 커스터마이징하는 방식을 사용한다.

커뮤니티에서는 이 칩을 USB 카트리지처럼 교체 가능한 형태로 판매하는 시나리오를 논의하고 있다. Apple의 온디바이스 AI에 적용될 가능성과 지연 시간 개선의 중요성도 주목받고 있다.

결론

Taalas의 ASIC 접근법은 LLM 추론의 패러다임을 바꿀 수 있는 잠재력을 보여준다. 메모리 병목이라는 근본적인 문제를 소프트웨어가 아닌 하드웨어 설계로 해결한 것이다. 단일 모델 전용이라는 제약이 있지만, 빠른 칩 제작 사이클로 이를 극복하고 있다. 로컬 추론, 엣지 디바이스, 저지연 응용 분야에서 큰 영향력을 발휘할 것으로 기대된다.

Reference