바이브 코딩의 환상 - AI가 만드는 실행되는 코드와 사람이 원하는 제품의 간극
목차
개요
저자는 최근 AI 코딩 능력에 대한 과대평가를 비판한다. AI가 생성한 코드는 단순히 “실행되는” 수준일 뿐 사람이 원하는 수준의 제품을 만들지 못한다는 것이 핵심 주장이다. 이 간극의 원인을 두 가지로 설명한다. 첫째는 AI가 가진 상식과 암묵적 지식의 결핍이고, 둘째는 보상 체계가 코드 실행 성공에 치우쳐 있는 학습 구조의 문제다.
배경
바이브 코딩은 명확한 사양 없이 자연어로 의도를 던지면 AI가 알아서 코드를 만들어주는 흐름을 가리킨다. 저자는 이 흐름이 만들어내는 결과물이 “실행되는 코드”에는 도달했지만 “사람이 원하고 돈을 낼 제품”에는 도달하지 못했다고 본다. 바둑처럼 이기면 되는 영역과 달리, 소프트웨어는 결국 사람이 원하는 제품이어야 한다는 점을 강조한다.
이 글은 news.hada.io 등 개발자 커뮤니티에서 활발히 공유되며 의견이 갈렸다. 한 댓글은 “인간의 개입과 도메인 지식이 여전히 필수적”이라며 동의했고, 다른 댓글들은 “글의 수준이 낮고 당연한 내용을 장황하게 서술했다”고 비판했다. 시간이 현재의 한계를 해결할 가능성을 제시하는 의견도 있었다.
핵심 내용
상식의 부족이라는 첫 번째 한계
AI는 인간의 암묵적 가정과 일반상식을 인지하지 못한다. 인터넷 데이터로 학습해도 이 문제가 해결되지 않는 이유는 사람들이 당연한 것은 굳이 언급하지 않기 때문이다. 당연한 것은 글로 쓰여 있지 않으므로 학습 데이터에서 누락되고, AI는 그 누락된 부분을 인지하지 못한다.
| 영역 | 사람의 처리 | 현재 AI의 처리 |
|---|---|---|
| 명시된 요구사항 | 인지하고 구현 | 인지하고 구현 |
| 암묵적 가정 | 자연스럽게 보완 | 누락 또는 어긋남 |
| 문화적 맥락 | 즉시 위화감 감지 | 위화감 감지 실패 |
| 비합리성 탐지 | 즉시 의문 제기 | 그대로 수행 |
RLVR 보상 구조의 함정
저자는 현재 LLM의 보상 체계가 가진 문제를 RLVR 관점에서 지적한다. “코드의 실행” 자체가 주요 보상이 되면서 다음과 같은 부작용이 누적된다.
| 부작용 | 결과 |
|---|---|
| 과도한 try-except 축적 | 에러는 안 나지만 의미 없는 코드 |
| 과도한 fallback 논리 | 실제 문제는 가려짐 |
| 기술 부채 인식 실패 | 장기적으로 유지보수 불가능 |
| 사람이 원하는 제품 창출 불가능 | 실행은 되지만 가치는 낮음 |
실행 성공이라는 좁은 보상에 최적화된 결과, AI는 “실행되기만 하면 되는 코드”를 양산하게 된다. 이는 결과적으로 사람이 원하는 제품의 형태와 멀어진다.
구체적 사례 세 가지
저자는 세 가지 구체 사례를 통해 이 문제를 보여준다.
첫 번째는 세종대왕 맥북 프로 던짐 환각 사례다. 한국 문화 맥락에서 비상식적인 결합이지만 AI는 그 위화감을 감지하지 못하고 그럴듯한 답변을 생성했다.
두 번째는 세차장 테스트 사례다. 50미터 거리를 차를 두고 걸어서 가라는 비합리적인 제안을 그대로 수행하는 식이다. 사람이라면 그 거리를 차로 가는 것이 당연하지만, AI는 명시되지 않은 일반상식을 적용하지 못한다.
세 번째는 한국 교실/학생 이미지 사례다. GPT-5.5가 생성한 이미지가 물리적으로는 문제없지만 인간적으로는 이상하게 느껴진다. 디테일은 맞지만 전체적인 맥락이 어긋나는 현상이다.
AJI와 인간의 역할
저자는 Andrej Karpathy의 AJI라는 개념을 인용한다. AJI는 Artificial Jagged Intelligence의 약자로 들쭉날쭉한 AI 능력을 의미한다. 어떤 영역에서는 인간을 압도하지만 어떤 영역에서는 어처구니없을 정도로 부족한 현재 AI의 모습을 잘 표현한다.
Anthropic의 견해도 인용된다. 현재 단계에서는 인간이 “설계와 취향” 영역을 담당해야 한다는 입장이다. Y Combinator의 오랜 격언인 “사람들이 원하는 것을 만들라(Make Something People Want)”도 함께 인용된다. 이 격언은 AI 시대에도 유효하며, 오히려 더 중요해졌다는 것이 저자의 시각이다.
의미와 시사점
이 글은 AI 코딩의 현재 한계를 두 축으로 정리한다. 하나는 데이터 자체의 한계로, 사람들이 당연하게 여기는 것은 글로 쓰이지 않으므로 학습되지 않는다. 다른 하나는 보상 구조의 한계로, 실행 성공이라는 좁은 지표가 진짜 가치를 가리킨다. 이 두 한계는 모델 크기를 키우거나 학습 데이터를 늘린다고 자동으로 해결되지 않는다.
실무 관점에서 이 글은 specification-first 접근의 필요성을 간접적으로 뒷받침한다. AI가 암묵적 가정을 채우지 못한다면 사람이 명시적으로 채워줘야 한다. AI가 실행 성공이라는 좁은 보상에 최적화된다면 사람이 더 넓은 평가 기준을 강제해야 한다.
저자는 AI가 이 간극을 점진적으로 좁혀가고 있다고 본다. 이 수준에 도달할 때 비로소 AGI라 부를 수 있다는 것이 저자의 예측이다. 현재 수준은 AGI가 아니라 AJI이며, 그 들쭉날쭉함을 메우는 것이 당분간 인간의 역할이다.
결론
바이브 코딩의 환상은 “실행되는 코드 = 사람이 원하는 제품”이라는 등식에서 출발한다. 이 등식은 성립하지 않는다. AI는 상식이 부족하고, 보상 구조도 좁은 지표에 최적화되어 있다. 이 간극이 좁혀지는 그 지점이 AGI의 진짜 기준이며, 그때까지는 인간이 설계와 취향, 도메인 지식을 채우는 역할을 수행해야 한다.