Что такое SLA?
Соглашение об уровне обслуживания (Service Level Agreement, SLA) – формальный договор между заказчиком услуги и ее исполнителем, в котором описаны услуга, права и обязанности сторон, а также согласованный уровень качества предоставления услуги. В договоре могут содержаться перечень параметров качества, методы и средства их контроля, время реакции исполнителя на запрос заказчика, а также штрафные санкции за нарушение соглашения.
SLA обычно включает в себя следующие разделы:
- определение предоставляемого сервиса, стороны, вовлеченные в соглашение, сроки его действия;
- дни и часы, когда сервис будет предоставляться;
- количество обслуживаемого оборудования и его местоположение;
- процедура размещения и прохождения запросов;
- контактные данные исполнителя;
- спецификации уровней качества сервиса;
- платежи, связанные с сервисом;
- ответственность заказчика и исполнителя;
- процедура разрешения разногласий, связанных с предоставлением сервиса.
При передаче обслуживания инженерной инфраструктуры ЦОДа на аутсорсинг SLA играет ключевую роль во взаимодействии заказчика и исполнителя. Наиболее важными разделами SLA будут следующие.
Состав оборудования/системы
В SLA должны быть полностью перечислены обслуживаемые системы (для каждого вида оборудования указываются код, наименование, производитель, количество). Если же какие-то устройства явно не поименованы в спецификациях к сервисному контракту, то исполнитель нередко отказывается от своих обязательств в отношении такого оборудования как не входящего, по его мнению, в состав обслуживаемой инженерной системы. Поэтому не поленитесь указать весь список компонентов системы жизнеобеспечения ЦОДа.
Описание предоставляемых услуг
В этом разделе подробно описываются все услуги, входящие в контракт. Не забудьте указать полный список регламентных работ, рекомендованных производителем для каждой инженерной подсистемы, которая передается на обслуживание исполнителю; услуги по восстановлению работоспособности после аварии; замену вышедшего из строя ЗИП; работы по предупреждению неисправностей; консультации по вопросам эксплуатации («горячая линия») и т. д.
Целесообразно для каждой услуги составить некий регламент, т.е. порядок действий при ее исполнении (см. например, табл. 1).
Контактная информация
Упускать из виду этот простой, но очень важный раздел SLA ни в коем случае нельзя. Представьте, что у вас возникает инцидент критичного уровня (скажем, остановилась вся система кондиционирования, а резерва нет!), а в диспетчерской службе исполнителя не берут трубку или не приходит подтверждение того, что ваша заявка зарегистрирована и принята к исполнению. Что делать? Продолжать и дальше безуспешные попытки связаться с диспетчером и смотреть, как бизнес теряет деньги, или заблаговременно внести в SLA таблицу с контактной информацией для эскалирующих действий?
В этой таблице должен содержаться целый набор адресов и телефонов исполнителя – от диспетчерской службы до директора департамента сервиса и аутсорсинга (на тот случай, если дозвониться по предыдущим десяти телефонам в таблице не удалось).
Метрики
Прежде всего нужно определить, что такое качество услуги и как оно будет измеряться. Качество простых сервисов можно измерять как долю времени, когда сервис работает: 99,9% – хорошо, меньше – плохо. Для более сложных сервисов предпочтительнее пользоваться другими критериями – временем реакции на запрос, временем прибытия исполнителя на объект и временем устранения инцидента или выполнения запроса. Сроки для каждого сервиса обычно устанавливаются свои, иногда они различаются для разных типов запросов в рамках одного сервиса и для разных приоритетов.
Приоритеты
Приоритет – это основанная на степени влияния и срочности последовательность устранения инцидентов.
Приоритет = Срочность × Степень влияния.
Степень влияния – мера критичности инцидента для бизнеса.
Срочность – скорость, с которой необходимо устранить инцидент, имеющий определенную степень влияния.
Например, для контракта по сервисному обслуживанию инженерной инфраструктуры ЦОДа можно выделить следующие уровни критичности инцидентов:
1. Малозначительный. Сбой в работе инженерной подсистемы, не приводящий к деградации параметров работы ЦОДа.
2. Значительный. Сбой в работе инженерной подсистемы, приводящий к деградации параметров работы инфраструктуры ЦОДа.
3. Критичный. Сбой в работе инженерной подсистемы, приводящий к полной остановке одной или нескольких инженерных систем.
Для каждой инженерной системы в SLA следует указать максимально допустимое время прибытия специалиста для начала работ по устранению инцидента (см., например, табл. 2).
Ограничение ответственности
Не следует забывать и о том, что ответственность исполнителя в отношении оборудования, находящегося у него на обслуживании, может быть ограничена из-за действий третьих лиц либо из-за нарушения правил эксплуатации. Поэтому не позволяйте производить ремонт и настройку оборудования неуполномоченным лицам. А при нарушении правил эксплуатации ремонт придется оплачивать заказчику.
Существует и эксплуатационная ответственность, которая в некоторых случаях должна быть ограничена. Например, при обслуживании электроустановки ЦОДа в арендуемом заказчиком здании нужно четко понимать, какова зона ответственности исполнителя при проведении работ в выделенной электрической сети и кабельных каналах, что из этого по проекту относится к сетям заказчика, а что – к сетям арендодателя.
Платежи по контракту
Это самый важный раздел. Если в SLA прописывается метрика для измерения доступности поддерживаемых сервисов, то можно вывести формулу для расчета стоимости неоказанных услуг и вычесть эту сумму из платежей по контракту.
Статья впервые опубликована на сайте «ИКС-Медиа»