7. Регулярно проверяйте всю редко используемую автоматику
Одним из основных принципов SRE является проактивное управление системами, что означает создание автоматических систем для защиты от инцидентов и поломок разного рода.
Вот несколько примеров таких автоматик:
— включение фильтрации трафика при срабатывании каких-то условий
— автоскейлинг ресурсов при росте нагрузки
— подключение кеширующих прокси
— отключение незначимых компонентов системы при пиковой нагрузке
— снижение скорости передачи данных
— увеличение времени ответа
–…
Список вариантов большой, но смысл понятен.
Что важно: речь идет об автоматике, включающейся при некоторых условиях. То есть речь идет о редких ситуациях. И это означает, что механизмы должны работать безотказно. Как огнетушитель в вашем деревянном загородном доме с дровяной печью: если случится так, что он пригодится, то лучше, если он будет исправен.
Всю такую автоматику необходимо регулярно проверять! Составьте себе расписание учений и протоколы проверки всех автоматик, на которые вы полагаетесь для обеспечения высокого качества своего сервиса в критических ситуациях.
В ходе этих регулярных проверок вы сможете обнаружить:
— изъяны или слабые места до того, как они проявятся в результате реальных инцидентов;
— изменения окружающей среды: по мере развития сервисов и инфраструктуры защитные механизмы могут потребовать корректировки или вообще перестать работать;
— несоответствия требованиям аудита;
— неполадки в работе системы мониторинга и оповещений;
— отсутствие необходимых доступов
–… и еще много всего.
Кроме того, участие в тестировании автоматики — это хороший способ онбординга новичков в команде.
Каждая проверка — это возможность узнать больше о системе и о том, как она ведет себя в различных условиях, что в итоге помогает усовершенствовать защитные механизмы.
Деньги:
Тут крайне важно соблюдать баланс между «давайте подготовимся заранее к чему угодно и будем оберегать наш хрустальный дворец» и «не делаем вообще ничего». Если вы не создаете систему жизнеобеспечения, не управляете ракетами и прочими критическими системами, то будет достаточно:
— проанализировать систему на предмет основных рисков
— оценить потери в результате реализации рисков
— спроектировать средства защиты
— оценить стоимость их реализации и поддержки
— применить здравый смысл и выбрать, куда потратить свои деньги