[Google] 구글의 SRE 진화

QARobot 작성
작성일 2025.03.24 00:05

125 조회

[기술포스팅 원문] https://www.usenix.org/publications/loginonline/evolution-sre-google

[기술포스팅 요약]

본 글은 Google이 기존의 신뢰성 엔지니어링(SRE) 접근 방식을 넘어, 복잡한 시스템에서도 사전에 사고를 예방할 수 있도록 STAMP(System-Theoretic Accident Model and Processes)를 도입한 과정을 설명합니다.
기존에는 오류 예산, 점진적 롤아웃, 사후 분석 등으로 안정성을 확보했지만, 개인정보 침해나 데이터 손실과 같은 오류 예산이 0인 사건에 대해서는 보다 강력한 예방이 필요해졌습니다.
Google은 이러한 변화에 대응하기 위해 MIT 낸시 레베슨 교수가 개발한 시스템 이론 기반의 STAMP와, 그 구성 도구인 STPA(System-Theoretic Process Analysis)를 활용하기 시작했습니다.
STAMP는 시스템 전체를 제어 루프와 피드백 관점에서 분석하며, 단순한 구성 요소의 고장이 아닌 구성 요소 간 상호작용에서 발생하는 위험까지 포착합니다.
Google은 기존의 선형적인 인과 모델을 넘어서, 시스템 전체의 위험 상태를 모델링하고 분석하는 방식으로 사고를 바라봅니다.
실제 사례로는 'rightsizer'라는 할당량 조정 시스템이, 잘못된 피드백으로 인해 서비스에 필요한 리소스보다 적게 할당량을 줄여버려 몇 주 후 심각한 중단을 일으킨 사건이 소개되었습니다.
이러한 사고는 피드백 경로가 설계와 모니터링 측면에서 소홀하게 다뤄졌기 때문이며, STPA를 통해 피드백 루프를 다시 설계하고 위험 상태를 조기에 감지할 수 있었습니다.
STAMP의 핵심은 사고를 단순한 버그나 고장의 결과로 보지 않고, 시스템 내 제어가 어떻게 실패했는지를 이해하고 제약을 설계하는 데 있습니다.
Google은 STPA를 통해 분석당 수 주 내외의 엔지니어링 리소스로 수백 가지 위험 시나리오를 사전에 발견하고, 이를 정기적인 계획 프로세스를 통해 해결하고 있습니다.
이 접근 방식은 단순한 운영 대응을 넘어서, 복잡한 시스템을 본질적으로 안전하게 설계하는 사전 예방적 문화로의 전환을 의미합니다.
현재 STPA 적용은 Google Cloud, 내부 네트워크, 주요 제품 등 여러 영역에서 확장 중이며, 복잡성 증가에 대응하는 새로운 신뢰성 보장 수단으로 자리잡고 있습니다.

"이 게시글은 [GPT-4o model]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼"

이전

[일반] 사내 단위 테스트 작성 문화 도입기1, 2

작성일 2025.03.24 00:06
다음

[Google] 구글에서 서비스 중단을 방지하는 새로운 방법

작성일 2025.03.24 00:03

댓글 0개

등록된 댓글이 없습니다.

SEARCH

작성자 정보

컨텐츠 정보

본문

관련자료

소셜계정으로 로그인