지속적으로 신뢰성을 개선하는 것은 기준을 명확히 하고 절차를 추적할 수 있을 때만 가능하다. 이를 위해 구글에서는 '아우터레이터'라고 부르는 서비스 중단 현상 추적 도구를 사용한다. 이번 장에서는 아우터레이터를 통해 시스템 중단 추적에 대해서 알아보도록 하자. 1. 에스컬레이터 구글에서는 SRE를 위한 모든 알림은 사람이 알림의 수신을 확인했는지 여부를 추적하는 중앙 응답 시스템을 공유하고 있다. 설정된 시간이 지나도 아무도 수신을 확인하지 않으면 시스템은 설정된 다음 단계로 알림을 격상한다. '에스컬레이터'라고 부르는 이 시스템은 비상 대기 엔지니어에게 전달된 이메일의 복사본을 수신하는 투명한 도구로 기획된 것이다. 이 기능 덕분에 사용자의 반응이 없어도 에스컬레이터가 손쉽게 기존의 업무 흐름에 통합될..