SRE 14

Ch11. 비상 대기

이번 장에서는 구글의 SRE들이 수년에 걸쳐 개발한 비상 대기(on-call) 업무 수행 방안의 기본적인 원리에 대한 소개와, 이를 바탕으로 서비스의 안정성을 보장하고 업무 부하를 안정적으로 유지하는 방법에 대해 설명하고 있다. 1. 소개 구글은 성능과 신뢰성을 책임지는 전담 SRE팀이 있다. 이러한 SRE 분들이 서비스를 위한 비상 대기 업무를 수행하는데 주요 임무는 자신들이 관리하는 서비스들을 문제 없이 운영하는 것이다. 문제 없이 운영하기 위해서는 하나의 분야에 특화된 사람이 아니라 다양한 사람들이 필요하다. 따라서 구글은 시스템과 소프트웨어 엔지니어링에 있어 각기 다른 배경지식을 가진 사람들을 SRE팀에 충원하고 있다. 또한 SRE가 순수한 운영 업무에 할애할 수 있는 시간을 최대 50%로 제한하..

CS/SRE 2023.08.16

[SRE] Ch05. 삽질은 이제 그만!

SRE 조직은 단순한 운영 업무보다는 장기간의 엔지니어링 프로젝트를 수행하는 것을 더 선호합니다. 여기서 운영 업무라는 단어의 의미는 사람에 따라 다르게 해석될 수 있으므로 삽질이라고 표현하고 있습니다. 1. 삽질이란? 이 책에서는 프로덕션 서비스를 운영하는 것과 직접적으로 연관이 있지만 수작업을 동반하고, 반복적이며, 자동화가 가능하고, 사후 대처가 필요하며, 지속적인 가치가 결여되어 있으면서도 서비스의 성장에 따라 지속적으로 늘어나는 업무들을 말합니다. 각각의 상황에 대해서 조금 더 자세하게 살펴보겠습니다. 수작업을 필요로 한다. 예를 들면 자동화된 작업을 실행하기 위해 수작업으로 스크립트를 실행하는 경우를 말합니다. 물론 스크립트에 기술된 모든 단계들을 손으로 직접 처리하는 것보다는 스크립트를 실행..

CS/SRE 2023.07.19

[SRE] Ch04. 서비스 수준 목표

이번 장에서는 사용자에게 필요한 서비스의 적정 수준을 정의하고 제공하는 방법에 대해서 이야기하고자 합니다. 1. 서비스 수준 관련 용어 1.1 척도 SLI는 서비스 수준 척도(Service Level Indicator)를 의미하며, 서비스 수준을 판단할 수 있는 몇 가지를 정량적으로 측정한 값입니다. 대부분의 서비스들은 핵심 SLI로서 요청에 대한 응답 속도를 말합니다. 그 외에도 시스템이 수신한 전체 요청 수 대비 에러율, 그리고 초당 처리할 수 있는 요청 수를 의미하는 시스템 처리량 등이 있습니다. 알고자 하는 서비스 수준의 SLI를 직접 측정하는 것이 이상적이기는 하지만 경우에 따라서는 필요한 값을 얻어내거나 해석하기가 어려워 그에 준하는 대체 값을 사용하는 경우도 있습니다. (클라이언트 측의 응답..

CS/SRE 2023.07.18

[SRE] Ch01 ~ 02. 소개

후니의 쉽게 쓴 네트워킹 스터디가 끝난 후 사이트 신뢰성 엔지니어링(Site Reliability Enginnering) 스터디를 하고 있습니다. 현재 데이터 엔지니어 직군으로 일하고 있는 저에게 후니의 쉽게 쓴 네트워킹과 사이트 신뢰성 엔지니어링 책 내용은 직접적으로 업무와 관련된 책은 아닙니다. 하지만 네트워크는 어떻게 구성되어 있는지, SRE 업무에 있어서 핵심은 무엇인지 파악하는 과정에서 시야가 많이 넓어질 것이라고 기대하고 있습니다 ! 오늘은 SRE 책 내용 중 Ch01 ~ 02 - 소개에 대해서 이야기를 하려고 합니다. 이 책은 현직 개발자가 사이트 신뢰성 엔지니어가 되기 위한 기술적인 토대를 갖추기 위한 책이 아니라, 사이트 신뢰성 엔지니어링 조직의 문화와 이념, 그리고 철학을 이해하고자 하..

CS/SRE 2023.07.11