포스트

2026 Bio-AI 오픈소스 감사 보고서 - 10개 저장소의 신뢰성 검증 결과

목차

  1. 개요
  2. 방법론
  3. 주요 결과
  4. 한계와 주의사항
  5. 결론
  6. Reference

개요

2026년 Bio-AI 분야의 오픈소스 저장소 10개를 대상으로 종합적인 기술 감사가 수행되었다. 코드 검사와 STEM-AI 신뢰 점수 체계를 활용한 이번 감사 결과, 10개 중 8개가 T0(신뢰 미확립), 1개가 T1, 단 1개만 T2를 달성했다. T3(감독 하 파일럿 최소 기준)를 충족한 저장소는 단 하나도 없었다. 이 보고서는 Bio-AI 오픈소스 생태계의 현주소를 적나라하게 보여준다. 핵심 병목은 “검증 메커니즘 없이 역량의 외양만 갖추는 것”으로 요약된다.

방법론

이번 감사는 2개의 레이어로 구성된 방법론을 적용했다.

Layer 1: 기술 코드 감사

첫 번째 레이어는 저장소의 기술적 측면을 직접 검사하는 코드 감사다. 프로젝트 구조, 실행 경로, 보안 취약점 등을 종합적으로 분석한다. 코드가 실제로 의도한 대로 동작하는지, 안전한 기본 설정을 갖추고 있는지를 확인한다.

Layer 2: STEM-AI 신뢰 점수

두 번째 레이어는 STEM-AI Trust Scoring v1.0.4를 적용한 정량적 평가다. 점수 산출 공식은 S1(문서화) x 0.50 + S3(코드/테스팅) x 0.50 - Risk Penalty로 구성된다. 문서화 품질과 코드/테스팅 품질에 동일한 가중치를 부여하면서, 위험 요소에 대해서는 감점을 적용하는 구조다.

신뢰 등급은 5단계로 나뉜다.

등급의미설명
T0신뢰 미확립기본적인 신뢰 기준 미달
T1부분적 신뢰일부 영역에서 기준 충족
T2의미 있는 신뢰상당 부분 기준 충족
T3감독 하 파일럿 최소 기준실무 적용 가능 최소 수준
T4운영 수준본격적 운영 가능 수준

주요 결과

감사 대상 저장소 요약

10개 저장소의 감사 결과를 아래 테이블에 정리했다.

저장소유형라이선스등급점수
BiomniHybrid agent + tool registryMITT017
AI-ScientistAutonomous research pipelineApache 2.0T148
CellAgentMulti-agent scRNA-seqNoneT015
ClawBioSkill framework + executionMITT263
LabClawSkill catalog/knowledgeMIT (README only)T020
claude-scientific-skillsHybrid skill libraryMITT024
SciAgent-SkillsStructured skill libraryCC BY 4.0T032
BioAgentsProduction research platformNoneT030
BioClawMessaging-integrated agentMITT029
OpenClaw-Medical-SkillsLarge medical skill libraryInconsistentT022

10개 중 8개(80%)가 T0으로, 기본적인 신뢰조차 확립하지 못했다. 유일한 T2 달성 저장소는 ClawBio(63점)이며, AI-Scientist만이 T1(48점)을 기록했다. T3 이상은 단 하나도 없어, 현재 Bio-AI 오픈소스 중 감독 하 파일럿에 바로 투입 가능한 프로젝트는 존재하지 않는다.

반복되는 4가지 실패 패턴

감사 과정에서 여러 저장소에 걸쳐 반복적으로 나타나는 4가지 실패 패턴이 식별되었다.

1. 책임 없는 임상 인접 범위

Bio-AI 저장소들이 임상적 맥락에 근접한 기능을 제공하면서도, 해당 결과에 대한 책임 메커니즘이 전혀 없다. 의료 또는 생물학적 의사결정에 영향을 줄 수 있는 출력을 생성하지만, 그 정확성이나 안전성을 보장하는 장치가 부재하다.

2. 형식만 갖춘 CI 파이프라인

CI/CD 파이프라인이 존재하지만, 과학적 정확성이 아닌 문서 형식만을 검증한다. 테스트가 실제 도메인 로직을 검증하는 것이 아니라, 파일 존재 여부나 포맷 일관성만 확인하는 수준에 머문다.

3. Mock을 실제 기능으로 오인하게 하는 표현

Mock 함수가 마치 실제 작동하는 기능인 것처럼 제시된다. 특히 분자 생성이나 데이터 분석 등 핵심 기능에서 이런 문제가 발견되었다. 사용자가 해당 기능이 실제로 동작한다고 착각할 위험이 크다.

4. 안전하지 않은 기본 배포 설정

CORS 전체 허용, Rate Limiting 비활성화, 관리자 엔드포인트 노출 등 보안적으로 위험한 기본 설정이 그대로 배포된다. 개발 단계의 편의 설정이 프로덕션 환경까지 그대로 이어지는 구조적 문제다.

주목할 만한 개별 분석

ClawBio - T2 이상치

ClawBio는 유일하게 T2(63점)를 달성한 저장소다. 실제 도메인 인식 검증(domain-aware validation)을 구현하고 있으며, CI에 도메인별 테스트를 포함하고 있다. 다른 저장소들과 차별화되는 핵심 요소는 과학적 정확성을 코드 수준에서 검증하려는 시도가 있다는 점이다.

Biomni - 샌드박싱 부재

Biomni는 LLM이 생성한 코드를 샌드박싱 없이 직접 실행한다. 이는 임의 코드 실행 취약점으로 이어질 수 있는 심각한 보안 위험이다. 생물학적 연구 맥락에서 이런 취약점은 특히 위험하다.

OpenClaw-Medical-Skills - Mock 기능 오인 위험

OpenClaw-Medical-Skills는 분자 생성 등의 기능에서 Mock 함수를 실제 기능처럼 제시한다. 의료 분야에서 이런 오인은 심각한 결과를 초래할 수 있다. 라이선스도 일관성이 없어 법적 사용 조건이 불명확하다.

BioAgents - 정교하지만 안전하지 않은 기본값

BioAgents는 기술적으로 정교한 프로덕션 연구 플랫폼이다. 하지만 기본 배포 설정에서 보안 문제가 노출되어, 별도의 보안 설정 없이 사용하면 위험하다. 라이선스도 명시되어 있지 않아 사용 조건이 불분명하다.

한계와 주의사항

이번 감사는 STEM-AI Trust Scoring v1.0.4 기준으로 수행되었으며, 향후 버전에서 기준이 변경될 수 있다. 점수는 특정 시점의 코드 상태를 반영하며, 저장소가 업데이트되면 결과가 달라질 수 있다. 또한 T0 등급이 해당 프로젝트의 연구적 가치 자체를 부정하는 것은 아니다. 신뢰 점수는 프로덕션 배포 준비도를 측정하는 것이지, 아이디어나 접근법의 혁신성을 평가하는 것이 아니다.

결론

Bio-AI 오픈소스 생태계의 핵심 문제는 “검증 메커니즘 없이 역량의 외양만 갖추는 것”이다. 10개 저장소 중 T3 이상을 달성한 프로젝트가 없다는 사실은, 현재 Bio-AI 오픈소스가 감독 하 파일럿조차 준비되지 않았음을 의미한다.

보고서는 다음과 같은 개선 방향을 제시한다. 첫째, README에 프로젝트의 한계와 범위를 정직하게 명시해야 한다. 둘째, 실패 시 안전하게 종료되는(fail-closed) 계약 구조를 도입해야 한다. 셋째, 형식 검증이 아닌 도메인 특화 테스트를 CI에 포함해야 한다. 넷째, CORS 전체 허용, Rate Limiting 비활성화 등 안전하지 않은 기본값을 수정해야 한다. 다섯째, 라이선스를 통일하고 명확하게 표기해야 한다.

ClawBio의 사례는 도메인 인식 검증과 CI 내 도메인 테스트만으로도 의미 있는 신뢰 수준에 도달할 수 있음을 보여준다. 나머지 9개 프로젝트도 구조적 개선을 통해 신뢰 등급을 높일 수 있는 잠재력이 있다. Bio-AI 분야가 실무에서 신뢰받으려면, 코드 품질과 안전성에 대한 근본적인 인식 전환이 필요하다.

Reference