1. Книги
  2. Прикладная литература
  3. Наталья Савенкова

SRE. Рецепты выживания в продакшне для инженера по надежности

Наталья Савенкова (2024)
Обложка книги

Надежность умирает последней. Главное, чтобы она вообще была. Это можно принять за шутку, если не знать, насколько все серьезно. Инженер по надежности, с двадцатилетним опытом работы в IT-индустрии, дает 61 полезный совет коллегам, имеющим дело с крупными, а также небольшими системами. Правила написаны емко и по существу, с нотками иронии и юмора, поэтому, даже несмотря на использование профессионального сленга, «пособие для выживания» читается легко. Рецепты основаны на многолетней практике, собственных ошибках и чужих граблях, и они могут стать незаменимой инструкцией для тех, «кто в теме».

Оглавление

Купить книгу

Приведённый ознакомительный фрагмент книги «SRE. Рецепты выживания в продакшне для инженера по надежности» предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

7. Регулярно проверяйте всю редко используемую автоматику

Одним из основных принципов SRE является проактивное управление системами, что означает создание автоматических систем для защиты от инцидентов и поломок разного рода.

Вот несколько примеров таких автоматик:

— включение фильтрации трафика при срабатывании каких-то условий

— автоскейлинг ресурсов при росте нагрузки

— подключение кеширующих прокси

— отключение незначимых компонентов системы при пиковой нагрузке

— снижение скорости передачи данных

— увеличение времени ответа

–…

Список вариантов большой, но смысл понятен.

Что важно: речь идет об автоматике, включающейся при некоторых условиях. То есть речь идет о редких ситуациях. И это означает, что механизмы должны работать безотказно. Как огнетушитель в вашем деревянном загородном доме с дровяной печью: если случится так, что он пригодится, то лучше, если он будет исправен.

Всю такую автоматику необходимо регулярно проверять! Составьте себе расписание учений и протоколы проверки всех автоматик, на которые вы полагаетесь для обеспечения высокого качества своего сервиса в критических ситуациях.

В ходе этих регулярных проверок вы сможете обнаружить:

— изъяны или слабые места до того, как они проявятся в результате реальных инцидентов;

— изменения окружающей среды: по мере развития сервисов и инфраструктуры защитные механизмы могут потребовать корректировки или вообще перестать работать;

— несоответствия требованиям аудита;

— неполадки в работе системы мониторинга и оповещений;

— отсутствие необходимых доступов

–… и еще много всего.

Кроме того, участие в тестировании автоматики — это хороший способ онбординга новичков в команде.

Каждая проверка — это возможность узнать больше о системе и о том, как она ведет себя в различных условиях, что в итоге помогает усовершенствовать защитные механизмы.

Деньги:

Тут крайне важно соблюдать баланс между «давайте подготовимся заранее к чему угодно и будем оберегать наш хрустальный дворец» и «не делаем вообще ничего». Если вы не создаете систему жизнеобеспечения, не управляете ракетами и прочими критическими системами, то будет достаточно:

— проанализировать систему на предмет основных рисков

— оценить потери в результате реализации рисков

— спроектировать средства защиты

— оценить стоимость их реализации и поддержки

— применить здравый смысл и выбрать, куда потратить свои деньги

Оглавление

Купить книгу

Приведённый ознакомительный фрагмент книги «SRE. Рецепты выживания в продакшне для инженера по надежности» предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Вам также может быть интересно

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я