Ценность данных как ресурса постоянно возрастает, особенно в процессе цифровой трансформации бизнеса. Данные – основа всех приложений и сервисов, включая приложения интернета вещей, искусственного интеллекта и машинного обучения.
Как хранить и восстанавливать big data
Рост объемов данных требует разработки стратегий их хранения, резервирования и восстановления. Важнейшие параметры любого плана резервного копирования и аварийного восстановления – это показатели целевой точки восстановления (Recovery Point Objective) и времени восстановления (Recovery Time Objective). RPO и RTO определяют, соответственно, допустимую потерю данных и допустимое время их восстановления.
Параметр RPO очень важен. Данные не должны существенно устареть со времени последнего создания резервной копии, то есть должны оставаться по возможности актуальными. RPO означает точку, в которой создаются резервные копии. Например, может выполняться ежесуточное резервное копирование, копирование данных через каждые несколько часов или их непрерывная репликация.
RTO – это время с момента отказа до полного восстановления работоспособности системы. RTO – период, в течение которого простаивают бизнес-процессы, связанные с отказавшими системами. От RPO и RTO зависит, потеря какого объема данных считается допустимой, и в течение какого времени могут быть недоступны сервисы. От их значений зависит стратегия защиты данных.
Для снижения рисков потери данных необходимо использовать систему хранения данных высокой надежности, размещения на удаленных друг от друга площадках нескольких СХД, применения мгновенных снимков и/или развертывания систем резервного копирования/восстановления.
Надежность системы хранения
Высоконадежные СХД сводят риски потери данных к минимуму. Для повышения уровня надежности вплоть до «пяти девяток» (99,999%) используют резервирование компонентов системы хранения: накопителей, контроллеров, интерфейсов, блоков питания, модулей памяти. Например, многоконтроллерные СХД способны выдерживать множественный отказ контроллеров.
В системах с высокой надежностью дублируются практически все компоненты, поэтому, что бы ни выходило в такой СХД из строя, весь ее функционал будет работать. Чем больше «девяток», тем меньше время простоя.
Катастрофоустойчивость и аварийное восстановление
Отказоустойчивость системы позволяет продолжать выполнение задач при отказе какого-либо ее компонента. Однако при выходе из строя центра обработки данных целиком, например из-за аварии электропитания, пожара или стихийного природного явления, потребуется катастрофоустойчивость. В этом случае одна СХД не сможет защитить данные, и нужен более высокий уровень.
Защититься от таких ситуаций можно, размещая несколько систем хранения в разных дата-центрах и поддерживая консистентность копий на двух или более СХД за счет регулярного копирования данных с помощью репликации. В результате риски потери данных сводятся к минимуму.
В случае форс-мажора можно будет задействовать запасную площадку, не тратить время на поиск, установку и подключение необходимого оборудования. При наличии других копий данных можно оперативно вернуть IT-системы в рабочее состояние. При использовании метрокластера RPO и RTO будут нулевыми – резервный узел моментально заменяет основной в случае его неработоспособности. При синхронной репликации нулевым будет только RPO, а при асинхронной оба параметра превышают нулевые значения.
Снимки данных
Кроме аппаратных отказов возможны логические и программные сбои, ошибки из-за человеческого фактора, а также атаки вирусов. Данные – это стратегический актив, поэтому необходима их защита от программ-вымогателей и других кибератак. Если повреждается основная копия данных, то может случиться, что будут повреждены и резервные. Как защититься от таких ситуаций?
Безопасность является, пожалуй, наиболее масштабным, важным и труднореализуемым аспектом системы хранения данных. Появляется необходимость автоматизировать процесс резервного копирования и сделать его регулярным. Такая периодическая процедура копирования / восстановления может запускаться ежечасно или даже раз в несколько минут. Для этого используется моментальная копия – снимок размещения данных. Копируются в этом случае не сами данные, а индексы – указатели на место, где фактически размещены данные.
Мгновенные (моментальные) снимки поддерживает большинство систем хранения. Эти снимки фиксируют состояние данных на момент времени, их удобно автоматически создавать по заданному расписанию. Мгновенный снимок позволяет восстановить состояние данных на момент создания этого снимка. Поэтому всегда можно вернуться к неповрежденной копии данных.
Резервное копирование
Снимки требуют дополнительной емкости СХД и используются в основном для быстрого восстановления. Для долгосрочного хранения данных применяется резервное копирование – отправка копий данных на выделенные системы. Для этого создается автономная, полностью независимая копия данных.
Нередко целями хакерских атак становятся именно резервные копии и системы резервирования. Оптимальный способ защиты данных – физическое разделение. Путь к данным должен открываться лишь иногда, только для создания резервной копии и ее восстановления. Хороший метод защиты – съемные носители.
Как правило, основная копия данных хранится на СХД, резервные копии для оперативного восстановления – на устройстве резервного копирования, другие архивные и резервные копии – на магнитных лентах. Последние имеют более высокие показатели RPO и RPO. Ленты можно хранить на другой, удаленной площадке, в безопасном месте и в течение долгого времени, как того подчас требуют регуляторы.
Важно, что соблюдение всех перечисленных пунктов позволит максимально обезопасить себя от риска потери данных. Все в ваших руках!
Фото: freepik.com
Также читайте: