Be Geek

SLO, SLA и error budget на одном кейсе: как перестать спорить “опасно/неопасно”

Если в компании “есть SLA”, это почти никогда не значит, что у команды есть инструмент управления надёжностью. SLA это внешний договор. Он редко помогает решать: релизить ли сегодня, сколько риска мы уже приняли, и когда пора замедлиться.

Поэтому разберём всё на одном кейсе: orders-api (создание заказа в доставке еды).

1) SLI: что измеряем

Начинаем с пользовательского действия: “создать заказ”.

SLI: доля успешных запросов на создание заказа (2xx + без таймаута, часто ещё в пределах по latency).

2) SLO: внутренняя цель

SLO: 99,9% успешных заказов в месяц. Это планка команды. Она должна быть реалистичной и пересматриваться по мере зрелости.

3) SLA: внешнее обещание

SLA обычно мягче, например 99,8% в контракте с партнёром. Это про деньги и репутацию, не про ежедневные решения команды.

4) Error budget: перевод в риск

SLO 99,9% = допускаем 0,1% неуспеха.

При 10 млн запросов в месяц budget = 10 000 “допустимых” фейлов.

Можно объяснять и во времени: 99,9% ≈ ~43 минуты даунтайма/мес.

5) Как budget меняет разговор

Когда budget сгорает, разговор перестаёт быть эмоциональным.

Вы не “чувствуете, что опасно”, вы видите: “осталось 30% бюджета, один большой инцидент и мы вылетим из SLO”.

Jan 30 10:48

Почему портфолио DevOps - это не список технологий

Рынок нанимает предсказуемость и скорость поставки, а не количество логотипов в резюме. Хорошее портфолио показывает, что инженер умеет собрать путь от коммита до продакшена, спрятать сложность за автоматизацией и держать систему в рамках договорённых SLO. Это видно по трём вещам: структуре проектов, артефактам в репозитории и метрикам результата.

**Какие проекты действительно нанимают**

Проекты, где есть CI/CD, инфраструктура как код, наблюдаемость и безопасность по умолчанию. Минимальный набор: контейнеризация приложения, пайплайн сборки и тестов, деплой на управляемый рантайм, Terraform для сети и сервиса, дашборд с p99 и алертом, шаблон постмортема. Такой комплект способен жить сам по себе и понятен проверяющему.

**Три уровня портфеля**

Базовый уровень подходит сильному джуну: контейнеризация и быстрый релиз в dev, Terraform-модуль для двух окружений, базовые метрики и один алерт по SLO. Уверенный уровень добавляет GitOps и стратегию деплоя, вводит практики SRE и подпись образов. Сильный уровень показывает платформенные компетенции: шаблоны сервисов, self-service, нагрузочные эксперименты и событийные интеграции.

**Как упаковать каждый проект**

В первом экране README должно быть понятно, что делает проект и почему это полезно. Нужен один GIF деплоя, одна схема, команда локального запуска, блок «было/стало» и краткие результаты: скорость релиза, MTTR, p99, стоимость. В корне лежат конфигурации CI/CD и модули Terraform, в каталоге docs - скриншоты дашборда и пайплайна.

**Антипаттерны портфеля**

Не выкладывайте секреты и kubeconfig, не плодите учебные репозитории без результата, не превращайте README в коллекцию бейджей. Кандидат с тремя продуманными репозиториями выглядит сильнее, чем кандидат с двадцатью незавершёнными попытками.

devops

kubernetes

portfolio

Jan 19 16:19