Open Knowledge Format : AI 에이전트를 위한 벤더 중립 지식 공유 표준
목차
개요
Open Knowledge Format(OKF)는 Google Cloud가 발표한 개방형 표준 규격입니다. LLM과 AI 에이전트가 필요로 하는 메타데이터, 컨텍스트, 큐레이션된 지식을 표현하기 위한 벤더 중립적이고 상호운용 가능한 형식입니다. 핵심 설계는 단순함에 있습니다. 마크다운을 기반으로 하여 일반 텍스트 에디터에서 그대로 읽을 수 있고, YAML 프론트매터로 구조화된 메타데이터를 표현합니다. 특별한 SDK나 런타임, 압축 스킴이 필요 없어 복잡성이 거의 없습니다. 이 글에서는 OKF가 무엇이며 데이터 공유를 어떻게 개선하는지, 기술 사양과 생태계, 그리고 시작 방법까지 정리합니다.
배경
단편화된 컨텍스트 문제
조직 내부의 지식은 여러 시스템에 흩어져 있는 경우가 대부분입니다. 메타데이터 카탈로그는 각자의 고유 API를 가지고 있고, 위키와 제3자 시스템, 공유 드라이브에 정보가 분산됩니다. 코드 주석과 docstring 안에 묻혀 있는 지식도 있으며, 일부는 선임 엔지니어의 머릿속에만 존재합니다. 그 결과 작업할 때마다 매번 컨텍스트를 처음부터 조립해야 하고, 지식이 각 시스템 안에 갇혀 재사용되지 못합니다. LLM과 AI 에이전트가 등장하면서 이 단편화 문제는 더 큰 병목이 되었습니다. 에이전트가 의미 있는 답을 내려면 흩어진 컨텍스트를 한곳에서 일관된 형식으로 읽을 수 있어야 하기 때문입니다.
Living Wiki 패턴
OKF가 제시하는 해결책의 핵심은 “Living Wiki” 패턴입니다. 에이전트가 공유된 마크다운 라이브러리를 함께 사용하면서 시간이 지날수록 더 유용해지는 구조입니다. 이 패턴의 강점은 Andrej Karpathy의 다음 표현으로 요약됩니다. “LLM은 지루해하지 않고, 상호참조 업데이트를 잊지 않으며, 한 번에 15개 파일을 만질 수 있다.” 즉 문서를 사람이 일일이 유지보수하는 대신 에이전트가 지속적으로 읽고 갱신하는 방식으로 지식 베이스를 살아 있게 유지할 수 있습니다.
핵심 내용
기술 사양과 디렉토리 구조
OKF 번들은 디렉토리와 마크다운 파일로 구성된 단순한 트리 구조입니다. 아래는 영업 도메인을 표현한 디렉토리 구조 예시입니다.
1
2
3
4
5
6
7
8
9
10
11
12
sales/
index.md
datasets/
index.md
orders_db.md
tables/
index.md
orders.md
customers.md
metrics/
index.md
weekly_active_users.md
각 디렉토리는 데이터셋, 테이블, 메트릭 등 지식의 종류별로 분류됩니다. 계층 탐색의 진입점은 index.md 파일이 담당하고, 변경 이력은 log.md 파일로 추적합니다.
문서 포맷과 필드
개별 문서는 YAML 프론트매터와 마크다운 본문의 조합으로 작성합니다. 아래는 Orders 테이블을 설명하는 문서의 예시입니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
---
type: BigQuery Table
title: Orders
description: One row per completed customer order.
resource: https://console.cloud.google.com/bigquery?p=acme&d=sales&t=orders
tags: [sales, revenue]
timestamp: 2026-05-28T14:30:00Z
---
# Schema
(컬럼 스키마 테이블)
# Joins
(다른 테이블과의 JOIN 경로 설명)
필드 구성은 매우 간결합니다. 유일한 필수 필드는 type 하나이며, 테이블, 메트릭, 플레이북 등 문서의 종류를 나타냅니다. 나머지 title, description, resource, tags, timestamp는 모두 선택 필드입니다.
| 필드 | 구분 | 설명 |
|---|---|---|
| type | 필수 | 문서 종류(테이블, 메트릭, 플레이북 등) |
| title | 선택 | 사람이 읽는 제목 |
| description | 선택 | 문서에 대한 짧은 설명 |
| resource | 선택 | 실제 리소스로 연결되는 URL |
| tags | 선택 | 분류용 태그 목록 |
| timestamp | 선택 | 갱신 시각 |
특수 파일명도 두 가지가 정해져 있습니다.
| 파일명 | 역할 |
|---|---|
| index.md | 계층적 탐색의 진입점 |
| log.md | 변경 이력 추적 |
기존 포맷 대비 장점
OKF는 기존의 고유 메타데이터 카탈로그 형식과 여러 면에서 대비됩니다. 아래 표는 두 방식을 항목별로 비교한 것입니다.
| 항목 | OKF | 기존 메타데이터 카탈로그 |
|---|---|---|
| 읽기 가능성 | 일반 마크다운 | 고유 형식 |
| 이식성 | 타르볼, Git, 파일시스템 | 벤더 종속 |
| SDK 필요 | 아니오 | 예 |
| 버전 제어 | Git과 함께 관리 | 별도 저장소에 분리 |
| 상호운용성 | 변환 없이 호환 | 각각 변환 필요 |
| 복잡도 | 극도로 단순 | 복잡한 스키마 |
마크다운 기반이라 누구나 텍스트 에디터로 열어볼 수 있고, Git으로 코드처럼 버전 관리할 수 있다는 점이 가장 큰 차별점입니다.
설계 원칙
OKF는 세 가지 설계 원칙 위에 세워졌습니다. 첫째, 최소한의 의견만 반영합니다. type만 필수로 두고 나머지는 자유롭게 두어 불필요한 강제를 피합니다. 둘째, 생산자와 소비자의 독립성을 보장합니다. 포맷 자체만이 계약이며, 문서를 만드는 도구와 소비하는 도구는 서로 독립적으로 발전할 수 있습니다. 셋째, 플랫폼이 아니라 포맷입니다. 특정 클라우드, 데이터베이스, 모델 제공자에 묶이지 않습니다.
사용 사례
대표적인 사례는 “주간 활성 사용자를 이벤트 스트림에서 어떻게 계산하나?”와 같은 질문입니다. OKF가 없으면 여러 시스템을 오가며 정보를 모아야 하지만, OKF가 있으면 공유된 마크다운 라이브러리에서 즉시 조회할 수 있습니다. 적용 분야는 다양합니다.
| 분야 | 내용 |
|---|---|
| 테이블/데이터셋 문서화 | 스키마, JOIN 경로, 사용 제약 |
| 메트릭 정의 | 비즈니스 의미, 계산 방식 |
| 플레이북/런북 | 인시던트 대응 절차 |
| API 폐지 공지 | 레거시 마이그레이션 안내 |
| 메타데이터 코드화 | 메타데이터를 코드처럼 관리 |
생태계와 참조 구현
Google은 OKF를 둘러싼 참조 구현을 함께 제시했습니다. 생산자(Producer)인 Enrichment Agent는 BigQuery 데이터셋을 자동 탐색하여 각 테이블과 뷰에 대한 OKF 문서 초안을 생성합니다. 공식 문서를 크롤링해 인용과 JOIN 경로로 문서를 강화하는 것도 이 에이전트의 역할입니다. 소비자(Consumer)인 Static HTML Visualizer는 임의의 OKF 번들을 대화형 그래프 뷰로 변환합니다. 백엔드가 필요 없는 자체 포함 파일이며, 처리가 페이지 내에서 이루어지므로 데이터 누출이 없습니다. 샘플 번들로는 GA4 e-commerce 데이터셋, Stack Overflow 공개 데이터, Bitcoin 블록체인 데이터가 제공됩니다. Google Cloud 통합 측면에서는 Google Cloud Knowledge Catalog가 OKF를 수집하여 에이전트에 제공합니다. 흐름은 OKF Bundle에서 Knowledge Catalog를 거쳐 AI Agents로 이어집니다. 향후에는 소스 시스템별 커스텀 생산자와 문서 사이트용 생산자가 개발될 예정입니다. 소비자 측면에서도 검색 인덱서, 에이전트 추론 엔진, 커스텀 뷰어 등이 확장될 수 있습니다. 포맷 자체는 역호환을 유지하며 진화하고, 커뮤니티 제안을 수용하면서 v0.1에서 v0.2로 점진적으로 개선됩니다.
시작하기
OKF를 도입하는 절차는 다섯 단계로 정리됩니다.
| 단계 | 내용 |
|---|---|
| 1 | GitHub knowledge-catalog/okf 사양 읽기 |
| 2 | 자신의 소스에 맞는 생산자 작성 |
| 3 | 소비자 구현 |
| 4 | 참조 구현(BigQuery 데이터)으로 테스트 |
| 5 | 이슈, PR, 확장 제안으로 기여 |
의미와 시사점
OKF의 가치는 다섯 가지로 요약할 수 있습니다. 표준화 측면에서, 모든 조직이 동일한 형식을 사용하면 지식의 재사용성이 높아집니다. 자동화 측면에서, AI가 문서를 읽고 업데이트하므로 사람의 인지 부담이 줄어듭니다. 투명성 측면에서, 마크다운은 Git으로 추적되어 코드 리뷰와 동일한 방식으로 변경을 검토할 수 있습니다. 독립성 측면에서, 벤더 종속이 없어 장기적으로 지속 가능한 지식 자산을 만들 수 있습니다. 상호운용성 측면에서, 한 번 작성하면 모든 도구에서 소비할 수 있습니다.
| 가치 | 효과 |
|---|---|
| 표준화 | 동일 형식으로 지식 재사용성 향상 |
| 자동화 | AI가 문서 읽기/업데이트, 인지 부담 감소 |
| 투명성 | 마크다운을 Git으로 추적, 코드 리뷰와 동일 |
| 독립성 | 벤더 종속 없음, 장기 지속성 확보 |
| 상호운용성 | 한 번 작성, 모든 도구에서 소비 |
결론
OKF는 지식을 소프트웨어처럼 관리하자는 패러다임을 제안합니다. 복잡한 서비스 대신 단순한 포맷을 제시함으로써, 흩어진 컨텍스트를 한곳에 모으고 에이전트가 이를 지속적으로 읽고 갱신할 수 있게 합니다. 마크다운과 YAML이라는 익숙한 도구만으로 벤더 중립적이고 상호운용 가능한 지식 베이스를 구축할 수 있다는 점이 핵심입니다. 표준화, 자동화, 투명성, 독립성, 상호운용성이라는 다섯 가지 가치를 통해, OKF는 AI 에이전트 시대의 지식 공유 방식을 단순하면서도 지속 가능한 방향으로 이끌어 갑니다.