기술블로그

[LINE NEXT] Playwright와 Jira로 만드는 스마트 장애/변경 알림 및 관리 시스템

작성자 정보

  • QARobot 작성
  • 작성일

컨텐츠 정보

  • 1,109 조회

본문


[기술포스팅 원문] https://techblog.lycorp.co.jp/ko/smart-monitoring-system-with-playwright-and-jira


[기술포스팅 요약]
  • LINE NEXT DevOps 팀의 이동원 님이 Playwright를 활용해 장애 알림과 변경 관리를 자동화하는 시스템 구축 과정을 공유했습니다. 이 시스템은 기존의 TTS(Trouble Ticket System)를 대체해 사용자 경험과 신뢰성을 개선하기 위한 목적으로 설계되었습니다.
  • 기존 시스템(TTS)은 알림과 장애 관리를 담당했지만, 독립적 운영으로 인해 제어에 제한이 있었습니다. 이러한 점을 개선하기 위해 새로운 시스템으로 전환했습니다.
  • Playwright는 다양한 브라우저를 지원하며, 자동화 및 E2E 테스트를 통해 장애 상황을 모니터링하고 Slack과 Jira로 즉각 알림을 전파하는 기능을 갖추고 있습니다.
  • 장애 관리 과정은 이상 탐지, 의사결정, 시스템 복구, 그리고 사후 분석으로 구성됩니다. Playwright는 여기서 장애 탐지 및 복구 시간을 단축하는 데 초점을 맞추고 있습니다.
  • 시스템 설계는 다음과 같은 도구를 활용합니다:
    • Playwright: E2E 모니터링과 시나리오 테스트를 담당하며 다중 브라우저 및 헤드리스 모드를 지원
    • Jira: 장애 티켓 관리 도구로, Playwright에서 탐지된 장애를 티켓 형태로 관리하여 상태를 기록
    • Slack: 장애 및 변경 사항 알림 전파에 활용되며, 봇 연동을 통해 유관 부서에 실시간으로 알림 발송
  • 시스템 도입을 위해 Selenium, Puppeteer, Cypress 등 다양한 도구들을 비교한 후 다중 브라우저 지원과 편리한 설정을 제공하는 Playwright를 최종 선택하였습니다.
  • Playwright를 통해 PoC(Proof of Concept) 단계를 거쳐 시스템 안정성과 기능을 검증했으며, 장애 등급 분류와 티켓 관리, 알림 전파 기능을 Playwright와 Jira 연동으로 대체할 수 있음을 확인했습니다.
  • 쿠버네티스 크론잡을 통해 매분마다 E2E 테스트가 자동으로 실행되며, 문제 발생 시 자동 알림과 장애 티켓이 생성됩니다.
  • Slack 메시지의 이모지 반응을 통해 Jira 티켓 상태를 실시간으로 변경하며, 일정 시간 확인되지 않은 장애 알림은 재발송하여 장애 대응 속도를 높입니다.
  • Playwright는 시스템의 신뢰성을 높이기 위해 다양한 튜닝을 진행했습니다. 예를 들어, waitUntil 옵션을 통해 경보의 정확성을 높이고, 재시도 횟수를 조정하여 일시적인 장애로 인한 오탐을 줄였습니다.
  • 이 시스템은 Roly-Poly라는 이름으로 불리며, LY의 서비스 신뢰성을 한층 높이는 스마트 모니터링 시스템으로 자리 잡아가고 있습니다.


이 게시글은 [GPT-4o model]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼 

관련자료

댓글 0
등록된 댓글이 없습니다.