사이트 신뢰성 엔지니어 3

[SRE] Ch05. 삽질은 이제 그만!

SRE 조직은 단순한 운영 업무보다는 장기간의 엔지니어링 프로젝트를 수행하는 것을 더 선호합니다. 여기서 운영 업무라는 단어의 의미는 사람에 따라 다르게 해석될 수 있으므로 삽질이라고 표현하고 있습니다. 1. 삽질이란? 이 책에서는 프로덕션 서비스를 운영하는 것과 직접적으로 연관이 있지만 수작업을 동반하고, 반복적이며, 자동화가 가능하고, 사후 대처가 필요하며, 지속적인 가치가 결여되어 있으면서도 서비스의 성장에 따라 지속적으로 늘어나는 업무들을 말합니다. 각각의 상황에 대해서 조금 더 자세하게 살펴보겠습니다. 수작업을 필요로 한다. 예를 들면 자동화된 작업을 실행하기 위해 수작업으로 스크립트를 실행하는 경우를 말합니다. 물론 스크립트에 기술된 모든 단계들을 손으로 직접 처리하는 것보다는 스크립트를 실행..

CS/SRE 2023.07.19

[SRE] Ch04. 서비스 수준 목표

이번 장에서는 사용자에게 필요한 서비스의 적정 수준을 정의하고 제공하는 방법에 대해서 이야기하고자 합니다. 1. 서비스 수준 관련 용어 1.1 척도 SLI는 서비스 수준 척도(Service Level Indicator)를 의미하며, 서비스 수준을 판단할 수 있는 몇 가지를 정량적으로 측정한 값입니다. 대부분의 서비스들은 핵심 SLI로서 요청에 대한 응답 속도를 말합니다. 그 외에도 시스템이 수신한 전체 요청 수 대비 에러율, 그리고 초당 처리할 수 있는 요청 수를 의미하는 시스템 처리량 등이 있습니다. 알고자 하는 서비스 수준의 SLI를 직접 측정하는 것이 이상적이기는 하지만 경우에 따라서는 필요한 값을 얻어내거나 해석하기가 어려워 그에 준하는 대체 값을 사용하는 경우도 있습니다. (클라이언트 측의 응답..

CS/SRE 2023.07.18

[SRE] Ch03. 위험 요소 수용하기

프로젝트를 구현하다 보면 어느 정도 수준의 제품을 사용자 혹은 기업에게 제공해야 하는지 명확하지 않은 경우가 있습니다. 이런 상황에서 명확한 의사 결정을 수행할 수 있게 도와주는 내용에 대해서 정리해 보도록 하겠습니다 🧑🏻‍💻 사용자들은 적절하게 높은 수준의 신뢰성과 극대화된 신뢰성의 차이를 알아차리지 못한다. 사용자의 경험이란 모바일 네트워크나 그들이 사용하는 장비처럼 신뢰성이 낮은 컴포넌트들에 의해 좌우되기 때문에 알아차리지 못한다고 합니다. 신뢰성을 향상시키기 위해서는 엄청난 비용이 소모되며 신뢰성을 극대화하면 새로운 기능을 개발하는 속도나 사용자에게 제품을 출시하는 기간에 오히려 제동을 걸게 되며 비용이 상승하여 팀이 더 많은 수의 기능을 구현하는 데 방해가 될 수 있기 때문에 적절하게 높은 수준..

CS/SRE 2023.07.18