이번 장에서는 구글의 SRE들이 수년에 걸쳐 개발한 비상 대기(on-call) 업무 수행 방안의 기본적인 원리에 대한 소개와, 이를 바탕으로 서비스의 안정성을 보장하고 업무 부하를 안정적으로 유지하는 방법에 대해 설명하고 있다. 1. 소개 구글은 성능과 신뢰성을 책임지는 전담 SRE팀이 있다. 이러한 SRE 분들이 서비스를 위한 비상 대기 업무를 수행하는데 주요 임무는 자신들이 관리하는 서비스들을 문제 없이 운영하는 것이다. 문제 없이 운영하기 위해서는 하나의 분야에 특화된 사람이 아니라 다양한 사람들이 필요하다. 따라서 구글은 시스템과 소프트웨어 엔지니어링에 있어 각기 다른 배경지식을 가진 사람들을 SRE팀에 충원하고 있다. 또한 SRE가 순수한 운영 업무에 할애할 수 있는 시간을 최대 50%로 제한하..