포스트

Google SRE의 포스트모템 문화: 비난 없는 학습으로 장애를 극복하는 방법

목차

  1. 개요
  2. 포스트모템의 정의와 목적
  3. 포스트모템 작성 기준
  4. 비난 없는 포스트모템 문화
  5. 협력과 지식 공유
  6. 포스트모템 문화 도입 전략
  7. 모범 사례
  8. 결론
  9. Reference

개요

Google SRE(Site Reliability Engineering) 북에서 다루는 포스트모템 문화에 대한 내용이다. 포스트모템은 사건 발생 후 작성되는 공식 기록으로, 사건의 영향, 해결 조치, 근본 원인, 재발 방지를 위한 후속 조치를 담는다. 핵심은 “비난 없는(blameless)” 접근을 통해 실패를 학습의 기회로 전환하는 것이다.

포스트모템의 정의와 목적

포스트모템의 주요 목표는 세 가지로 요약된다. 첫째, 사건이 완벽히 문서화되어야 한다. 둘째, 모든 근본 원인이 충분히 이해되어야 한다. 셋째, 재발 가능성과 영향을 줄이기 위한 효과적인 예방 조치가 실행되어야 한다.

포스트모템은 단순한 사후 보고서가 아니라, 조직 전체의 신뢰성을 향상시키는 학습 도구이다.

포스트모템 작성 기준

모든 사건에 포스트모템을 작성하는 것은 아니다. 다음과 같은 상황에서 포스트모템 작성이 촉발된다.

기준설명
가동 중단/성능 저하사용자 영향 범위를 초과하는 경우
데이터 손실모든 형태의 데이터 손실 발생 시
온콜 개입롤백, 트래픽 재라우팅 등 수동 조치 필요 시
해결 시간 초과특정 임계값을 초과하는 해결 시간
모니터링 장애자동 감지 실패로 수동 발견된 사건

비난 없는 포스트모템 문화

구글 포스트모템 문화의 가장 중요한 원칙은 비난 없는 접근이다. 포스트모템은 개인이나 팀을 잘못된 행동으로 지목하지 않고, 사건의 기여 원인을 파악하는 데 집중해야 한다. 이 문화는 의료 및 항공 산업에서 유래했으며, 모든 실수를 시스템 강화의 기회로 본다.

비난 문화가 지배적이면 사람들이 두려움으로 문제를 제기하지 않게 된다. 이는 문제 은폐로 이어지고, 조직 전체의 위험을 오히려 증가시킨다. 비난 없는 환경에서만 솔직한 원인 분석과 효과적인 재발 방지가 가능하다.

협력과 지식 공유

실시간 협업 도구

포스트모템은 협력적 도구로 활용된다. 실시간 협업 기능을 통해 여러 팀원이 동시에 문서를 작성하고 편집할 수 있다. 공개 댓글 및 주석 시스템으로 추가 맥락이나 보완 의견을 남길 수 있다. 이메일 알림을 통해 관련자들에게 자동으로 공유된다.

검토 기준

포스트모템 검토 시 확인해야 할 핵심 항목이다.

항목확인 내용
데이터 수집주요 사건 데이터가 완전히 수집되었는가
영향 평가사건의 영향이 빠짐없이 평가되었는가
근본 원인분석의 깊이가 충분한가
실행 계획후속 조치가 적절하고 우선순위가 명확한가

검토되지 않은 포스트모템은 존재 가치가 없다. 정기적 검토 세션을 통해 진행 중인 논의를 종료하고 아이디어를 포착해야 한다.

포스트모템 문화 도입 전략

구글의 구체적 활동

구글은 포스트모템 문화를 강화하기 위해 세 가지 활동을 운영한다.

활동설명
포스트모템의 달월간 뉴스레터에서 우수 포스트모템을 선정하여 공유
포스트모템 독서 모임팀 간 정기적 토론 모임을 통해 교차 학습
불운의 바퀴(Wheel of Misfortune)신입 SRE를 위한 재난 시나리오 역할극 훈련

특히 “불운의 바퀴”는 과거 실제 사건을 기반으로 역할극을 수행하여, 신입 엔지니어가 실전과 유사한 경험을 안전하게 쌓을 수 있게 한다.

조직 내 도입 시 극복 전략

포스트모템 문화를 새로 도입하는 조직을 위한 전략이다. 워크플로우에 점진적으로 도입하는 것이 중요하다. 효과적인 포스트모템 작성을 보상하고 축하해야 한다. 경영진의 가시적 참여와 인정을 확보해야 한다.

모범 사례

효과적인 포스트모템 운영을 위한 모범 사례를 정리한다.

비난 피하고 건설적으로 유지한다. 비난 문화는 문제 은폐를 초래하여 조직의 위험을 증가시킨다. “누가 잘못했는가”가 아니라 “시스템을 어떻게 개선할 것인가”에 집중해야 한다.

반드시 검토를 확보한다. 검토되지 않은 포스트모템은 작성하지 않은 것과 다름없다. 정기적 검토 세션을 운영하여 모든 포스트모템이 팀의 학습으로 연결되도록 한다.

보상 시스템을 운영한다. 구글의 창립자들이 포스트모템 우수 사례를 공개적으로 표창함으로써 조직 문화를 강화한다. 포스트모템 작성이 처벌이 아니라 기여로 인식되는 환경을 만들어야 한다.

피드백을 수집한다. 포스트모템 효과성에 대해 정기적으로 팀 피드백을 요청하여 프로세스 자체를 지속 개선한다.

결론

구글의 포스트모템 문화는 비난 없는 환경에서 실패를 학습의 기회로 전환하는 체계적인 접근이다. 포스트모템의 달, 독서 모임, 불운의 바퀴 같은 구체적인 활동을 통해 문화를 지속적으로 강화하고 있다. 조직에 도입할 때는 점진적 접근, 보상 시스템, 경영진 참여가 핵심이다. 결과적으로 더 적은 가동 중단과 더 나은 사용자 경험으로 이어진다.

Reference