10장은 대부분 구글에서 시계열 모니터링을 어떻게 수행하고 있는지 알려주고 있다. 물론 도움이 되는 내용도 있었지만 보그몬의 탄생, 예시로 든 애플리케이션의 조작, 내보낸 데이터의 수집 등 대부분의 내용은 현업에 적용하기에는 무리가 있어 보인다. 따라서, 구글에서 어떻게 수행하고 있는지 자세하게 알기 위해서는 책을 읽어보는 것이 좋을 것 같고 블로그에는 현업에 적용이 가능한 개념을 작성하고자 한다.
1. 알림
제품을 구성하는 계층의 가장 밑바닥에 깔려있는 모니터링은 안정적인 서비스를 운영하기 위해서는 반드시 필요한 기본 구성 요소다. 서비스 담당자가 서비스의 변경에 따른 영향을 합리적으로 결정할 수 있고, 장애가 발생했을 때는 과학적인 방법으로 대체할 수 있음은 물론이고 서비스가 비즈니스 목표에 맞게 운영되고 있는지를 측정할 수 있다.
대형 시스템은 수많은 개별 컴포넌트를 관리해야 하는 형식이 아니라 종합적인 신호를 전달하면서 외부 요인들을 배제할 수 있도록 디자인되는 것이 좋다고 한다. 아무래도 개별 컴포넌트마다 알림을 받는다면 오히려 관리하기도 어렵고 상황을 파악하기도 어렵기 때문이 아닐까 싶다.
2. 알림 예시
책에서는 알림을 보내기 전에 일정 시간 동안 반드시 참이어야 하는 조건을 추가한 알림 예시를 보여준다. 일반적으로는 알림 규칙을 적용한 후 참이면 알림을 발송하고 아니면 발송하지 않는다. 하지만, 금방 다른 상태로 바뀔 수 있기 때문에 일정 시간이라는 조건을 준 것이 인상 깊었다. 실제로 알림을 받고 확인을 하면 해결이 된 경우도 존재하였기 때문에 아주 유용한 조건이라고 생각한다.
3. 블랙박스 모니터링
구글에서 사용하는 보그몬은 화이트박스 모니터링이다. 이를 통해서 대상 서비스의 내부 상태를 언제든 확인할 수 있지만 사용자가 실제로 보는 것은 알아채지 못할 수 있다는 점을 지적한다. 화이트박스가 바라보는 대상에 전달되지 않은 쿼리는 볼 수 없기 때문에 이런 것들은 블랙박스 모니터링을 활용해서 해결하면 된다. 구글에서는 프로버를 이용해서 해결한다고 한다.
4. 결론
구글은 필요한 것이 있으면 무엇이든지 직접 만드는 것 같아. 이를 통해 구글에 최적화된 도구가 등장하고 이러한 도구들이 서로 상호작용하며 대단한 시스템이 생성된다. 알림도 마찬가지다. 하지만, 시계열 데이터에 대한 알림 측면에서는 구글에서 사용하는 보그몬을 사용하지 않더라도 프로메테우스, 리맨, 헤카, 보선을 비롯한 다양한 오픈 소스 도구들이 있다. 이번 장에서는 시계열 데이터에 대한 알림 관련해서 전체적으로 파악한 후 프로메테우스를 사용해 보는 것이 오히려 좋지 않을까라는 생각이 있다.
'CS > SRE' 카테고리의 다른 글
Ch12. 효과적인 장애 조치 (0) | 2023.08.16 |
---|---|
Ch11. 비상 대기 (0) | 2023.08.16 |
Ch09. 간결함 (0) | 2023.08.02 |
Ch08. 릴리즈 엔지니어링 (0) | 2023.08.02 |
[SRE] 07. 구글의 발전된 자동화 (0) | 2023.07.26 |