Statistics
  • 현재 접속자 42 명
  • 오늘 방문자 541 명
  • 어제 방문자 2,475 명
  • 최대 방문자 2,475 명
  • 전체 방문자 202,350 명
  • 전체 회원수 1,007 명
  • 전체 게시물 1,244 개
  • 전체 댓글수 664 개
기술블로그

[Google] 구글의 SRE 진화

작성자 정보

  • QARobot 작성
  • 작성일

컨텐츠 정보

  • 125 조회

본문

[기술포스팅 원문] https://www.usenix.org/publications/loginonline/evolution-sre-google


[기술포스팅 요약]
  • 본 글은 Google이 기존의 신뢰성 엔지니어링(SRE) 접근 방식을 넘어, 복잡한 시스템에서도 사전에 사고를 예방할 수 있도록 STAMP(System-Theoretic Accident Model and Processes)를 도입한 과정을 설명합니다.
  • 기존에는 오류 예산, 점진적 롤아웃, 사후 분석 등으로 안정성을 확보했지만, 개인정보 침해나 데이터 손실과 같은 오류 예산이 0인 사건에 대해서는 보다 강력한 예방이 필요해졌습니다.
  • Google은 이러한 변화에 대응하기 위해 MIT 낸시 레베슨 교수가 개발한 시스템 이론 기반의 STAMP와, 그 구성 도구인 STPA(System-Theoretic Process Analysis)를 활용하기 시작했습니다.
  • STAMP는 시스템 전체를 제어 루프와 피드백 관점에서 분석하며, 단순한 구성 요소의 고장이 아닌 구성 요소 간 상호작용에서 발생하는 위험까지 포착합니다.
  • Google은 기존의 선형적인 인과 모델을 넘어서, 시스템 전체의 위험 상태를 모델링하고 분석하는 방식으로 사고를 바라봅니다.
  • 실제 사례로는 'rightsizer'라는 할당량 조정 시스템이, 잘못된 피드백으로 인해 서비스에 필요한 리소스보다 적게 할당량을 줄여버려 몇 주 후 심각한 중단을 일으킨 사건이 소개되었습니다.
  • 이러한 사고는 피드백 경로가 설계와 모니터링 측면에서 소홀하게 다뤄졌기 때문이며, STPA를 통해 피드백 루프를 다시 설계하고 위험 상태를 조기에 감지할 수 있었습니다.
  • STAMP의 핵심은 사고를 단순한 버그나 고장의 결과로 보지 않고, 시스템 내 제어가 어떻게 실패했는지를 이해하고 제약을 설계하는 데 있습니다.
  • Google은 STPA를 통해 분석당 수 주 내외의 엔지니어링 리소스로 수백 가지 위험 시나리오를 사전에 발견하고, 이를 정기적인 계획 프로세스를 통해 해결하고 있습니다.
  • 이 접근 방식은 단순한 운영 대응을 넘어서, 복잡한 시스템을 본질적으로 안전하게 설계하는 사전 예방적 문화로의 전환을 의미합니다.
  • 현재 STPA 적용은 Google Cloud, 내부 네트워크, 주요 제품 등 여러 영역에서 확장 중이며, 복잡성 증가에 대응하는 새로운 신뢰성 보장 수단으로 자리잡고 있습니다.


"이 게시글은 [GPT-4o model]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼"

관련자료

댓글 0
등록된 댓글이 없습니다.
Notice
Member Rank