Google Gemma 4: Gemini 3 기반 오픈 AI 모델, 멀티모달·에이전트·엣지 지원

게시 2026/04/07 업데이트 2026/04/07

By Juho

9 분읽는 시간

개요

Google DeepMind가 Gemini 3 기술을 기반으로 한 Gemma 4 오픈 AI 모델을 발표했다. Gemma 4는 매개변수당 지능 효율을 극대화한 구조로 설계되었으며, 모바일·IoT부터 개인 워크스테이션까지 다양한 환경을 지원하는 4가지 모델 변형을 제공한다. 멀티모달 추론, 에이전트형 워크플로, 140개 언어 지원 등 폭넓은 기능을 갖추고 있어 오픈 모델 생태계에 큰 변화를 가져올 것으로 기대된다.

Gemma 4 모델 라인업

Gemma 4는 용도와 하드웨어 환경에 따라 4가지 변형 모델을 제공한다.

모델	대상 환경	특징
E2B	모바일/IoT 기기	초경량, 거의 제로 레이턴시, 완전한 오프라인 기능
E4B	모바일/IoT 기기	초경량, 거의 제로 레이턴시, 완전한 오프라인 기능
26B	소비자 GPU	일반 소비자용 GPU에서 실행 가능한 중간 규모 모델
31B	개인 워크스테이션	개인 워크스테이션급 하드웨어에 최적화된 최상위 모델

E2B와 E4B는 모바일과 IoT 기기를 위한 초경량 모델로, 네트워크 연결 없이도 완전한 기능을 제공한다. 26B는 소비자용 GPU에서 실행 가능하며, 31B는 개인 워크스테이션 환경에서 최고 성능을 발휘한다.

핵심 기능

Gemma 4가 지원하는 주요 기능은 다음과 같다.

멀티모달 추론

오디오와 비전을 포함한 멀티모달 추론을 지원한다. 텍스트뿐만 아니라 이미지와 음성 입력을 함께 처리할 수 있어 다양한 응용 분야에 활용할 수 있다.

다국어 지원

140개 언어를 지원하여 글로벌 환경에서의 활용이 가능하다. 다국어 벤치마크에서도 경쟁 모델 대비 우수한 성능을 보여주고 있다.

에이전트형 워크플로

함수 호출을 네이티브로 지원하여 에이전트형 워크플로를 구축할 수 있다. 별도의 래퍼 없이도 도구 사용과 외부 API 호출이 가능하다.

파인튜닝 지원

사용자가 특정 도메인이나 작업에 맞게 모델을 파인튜닝할 수 있다.

엣지 프로세싱

Raspberry Pi, Jetson Nano 같은 엣지 디바이스에서 실시간 오디오 및 비전 처리가 가능하다. 클라우드에 의존하지 않고도 현장에서 즉시 AI 추론을 수행할 수 있다.

벤치마크 성능

31B IT 모델의 주요 벤치마크 결과는 다음과 같다.

벤치마크	점수
Arena AI (text)	1452
MMLU	85.2%
AIME 2026	89.2%
GPQA Diamond	84.3%
LiveCodeBench v6	80.0%

MMLU에서 85.2%, AIME 2026에서 89.2%의 높은 점수를 기록했다. 코딩 벤치마크인 LiveCodeBench v6에서도 80.0%를 달성하여 코드 생성 능력도 검증되었다. GPQA Diamond에서 84.3%를 기록하며 과학적 추론 능력도 우수함을 보여주었다.

배포 및 생태계

Gemma 4는 다양한 플랫폼과 프레임워크를 통해 배포된다.

배포 플랫폼

Hugging Face
Ollama
Kaggle
LM Studio
Docker

지원 프레임워크 및 서비스

JAX
Vertex AI
Keras
Google AI Edge
GKE (Google Kubernetes Engine)

기존 Gemma 시리즈는 이미 4억 회 이상 다운로드되었으며, 10만 개 이상의 파생 모델이 생성된 상태이다. 이번 Gemma 4도 기존의 풍부한 생태계를 그대로 활용할 수 있다.

커뮤니티 반응

Gemma 4 발표 이후 커뮤니티에서는 다양한 반응이 나오고 있다.

MacBook Air M4에서 26B 모델을 실행한 결과, Qwen3.5보다 인상적인 성능을 보여주었다는 후기가 있다. 다국어 벤치마크에서도 gemma-4-31b-it가 Qwen3.5 27B보다 좋은 성능을 나타냈다.

라이선스가 아파치 2.0으로 제공되어, 상업적 활용에 제약이 있는 모델들의 대안으로 기대를 모으고 있다. 특히 Qwen 시리즈의 대안으로 주목받고 있다.

이미지 생성 관련 테스트에서는 펠리컨 이미지를 기준으로 각 모델별 차이가 확인되었다. 2B와 4B 모델은 부정확한 결과를 생성했으나, 26B-A4B 모델은 가장 뛰어난 결과를 보여주었다.

AI 실행 위치의 변화

Gemma 4의 등장은 AI 실행 위치의 패러다임 변화를 보여준다. 기존의 클라우드 중심 AI 실행 방식에서 로컬 및 모바일 중심으로 전환이 가속화되고 있다.

이러한 변화는 세 가지 측면에서 큰 의미를 갖는다. 첫째, 클라우드 API 호출 비용이 절감된다. 둘째, 데이터가 디바이스를 벗어나지 않아 프라이버시가 강화된다. 셋째, 네트워크 지연 없이 실시간 추론이 가능하여 속도가 향상된다.

Raspberry Pi나 Jetson Nano 같은 저전력 디바이스에서도 실시간 오디오·비전 처리가 가능해짐에 따라, AI의 활용 범위가 크게 확대될 것으로 전망된다.

결론

Google Gemma 4는 Gemini 3 기술을 기반으로 매개변수당 지능 효율을 극대화한 오픈 AI 모델이다. E2B부터 31B까지 4가지 변형 모델을 제공하여 모바일·IoT부터 워크스테이션까지 다양한 환경을 지원한다. 멀티모달 추론, 140개 언어 지원, 네이티브 함수 호출, 엣지 프로세싱 등 풍부한 기능을 갖추고 있다. 아파치 2.0 라이선스로 제공되어 상업적 활용에도 유리하다. AI 실행이 클라우드에서 로컬·모바일로 이동하는 흐름 속에서 Gemma 4는 비용, 프라이버시, 속도 측면 모두에서 강력한 선택지가 될 것이다.

Reference

Gemma 4 - Google DeepMind

AI LLM Benchmark