Система хранения данных (СХД) — это набор аппаратных и программных средств в IT-инфраструктуре. Она нужна как для хранения, так и для последующей обработки больших массивов информации.
Система хранения данных — базовая ячейка IT-инфраструктуры.
СХД предоставляет физические носители, сеть, ПО и средства управления. Все перечисленные компоненты применяются для постоянного сохранения информации и предоставления к ней доступа по требованию пользователя.
Какие бывают системы хранения данных
Разберем самые распространенные типы СХД кратко.
Хранилище с прямым подключением — жесткие диски напрямую подключаются к серверу.
Сетевое хранилище (NAS) — внешние устройства хранения данных файлового уровня, подключенные через локальную сеть.
Сеть хранения данных (SAN) — сети хранения данных блочного уровня (к ним обращаются серверы).
Объектное хранилище — хранение данных в виде объектов с метаданными (без файлов или блоков).
Облачное хранилище — масштабируемое хранилище по запросу, предоставляемое провайдером (поставщиком услуги) через интернет. Самые известные платформы такого рода — Oracle, Microsoft, Google.
Подробно каждый из этих типов мы обсудим чуть ниже, а пока что — посмотрим на главные функции, которые должны быть в надежной СХД.
● Сохранение данных на разных носителях.
● Организация данных — для идентификации на разном уровне.
● Обеспечение одновременного доступа от нескольких пользователей или нескольких систем.
● Защита информации от несанкционированного использования, а также повреждения.
● Включение резервного копирования данных, создание бэкапов, архивирование и аварийное восстановление.
Виды систем хранения данных и их особенности
DAS
Хранилище с прямым подключением (обозначаются аббревиатурой DAS, от direct attached storage) — жесткие диски, напрямую подключенные к одному серверу и доступные для него как обычное хранилище.
Системы DAS предполагают подключение накопителей разных типов: жестких дисков, твердотельных накопителей (SSD). Подключение к компьютеру происходит по SATA-, SAS- или USB-интерфейсу.
В DAS хранилище выделено отдельному серверу и контролируется им.
Системы типа DAS обеспечивают хорошую производительность, но имеют ограниченные возможности совместного использования.
NAS
Сетевое хранилище (NAS, от network attached storage) — внешние устройства хранения данных файлового уровня, подключенные через локальную сеть. Устройства NAS всегда автономны, они имеют накопители и ОС (оптимизированные для работы с файлами с помощью NFS-протокола, либо SMB или CIFS).
NAS обеспечивает централизованный обмен файлами между сетевыми клиентами, которые могут получать доступ к иерархии файловой системы.
SAN
Сеть хранения данных (SAN, от Storage Area Network) — это выделенные высокоскоростные сети, которые обеспечивают блочный доступ к хранилищу на нескольких серверах.
SAN создан с учетом резервирования, ориентированного на высокую доступность, производительность и возможности совместного использования ресурсов хранения (обычно — по оптоволоконному каналу или сетевой структуре iSCSI).
Принцип работы системы хранения данных
В основе СХД лежат привычные нам носители информации (твердотельные накопители, жесткие диски, реже — оптические диски) — они обеспечивают физическую сохранность данных.
Вот как все компоненты СХД работают друг с другом:
1. Носитель подключается к вычислительным ресурсам через сетевую структуру. Протоколы могут варьироваться (от FC и iSCSI до FCoE).
2. Программная функция СХД — виртуализация. Она объединяет ресурсы и позволяют создавать моментальные снимки и репликацию. ОС, в свою очередь, обрабатывает трафик (и все запросы).
3. Носитель данных подключается к серверам (и вычислительным ресурсам) по сетевой структуре. Подключение происходит через протоколы Fibre Channel, iSCSI, InfiniBand. Упрощается доступ к хранилищу из нескольких систем.
4. Операционная система СХД преобразует необработанные носители в логические структуры (файлы, блоки, иные объекты). Так управляется трафик, маршрутизация запросов, адресация данных и контроль доступа.
5. Функциональные возможности ПО (репликация, например) повышает эффективность СХД, аппаратное резервирование во всех компонентах — улучшает доступность в случае сбоев.
6. Масштабируемые конструкции — позволяют расширять кластеры хранения данных за счет добавления дополнительных узлов. Так можно поддержать растущие требования к пропускной способности, например.
7. Унифицированное хранилище — объединяет различные типы доступа (блочные, файловые, объектные) в единую систему.
Как правильно выбрать систему хранения данных
Производительность
Выбор оптимальной инфраструктуры хранения данных требует тщательного анализа ключевых требований и приоритетов. Играет роль не только производительность, но и она очень важна: учитывайте количество операций ввода-вывода, пропускную способность и задержку.
Случайные и последовательные рабочие нагрузки ведут себя по-разному. И важно анализировать пиковые нагрузки на разных этапах ближайшего времени.
Сравните контрольные показатели разных систем СХД. Важно определить реалистичные и нереалистичные пределы.
Емкость
Емкость не менее важна. Рассчитайте текущие потребности в хранилищах и спрогнозируйте будущие потребности: на месяц, полгода, год, следующие 3-5 лет. Планируйте рост и новые варианты использования продукта. Для этого будут полезны паттерны или шаблоны. О них далее.
Паттерны доступов
Важно учитывать шаблоны доступа к данным. С ними гораздо проще. Например, блочное хранилище подходит для транзакционных данных (когда приложения обращаются случайным образом).
Файловое хранилище — хороший вариант для повышения производительности пользовательских приложений.
Объектное хранилище — подходит для хранения больших медиафайлов, архивов и резервных копий.
О требованиях к доступности и юзабилити
Критически важные СХД нуждаются во встроенном резервировании — с помощью зеркального отображения, кластеризации, стирающего кодирования или других подходов.
Оцените простоту управления. Графический интерфейс, автоматизация, мониторинг и мультисистемные возможности — все это будет не лишним в хорошей СХД.
Сервисы и масштабируемость
Сервисы обработки данных — cм. выше (моментальные снимки, клонирование, репликация, дедупликация, сжатие, QoS, многоуровневое хранение, архивирование). Без них вы будете тратить слишком времени на рутины. Они должны быть.
Масштабируемость. Другими словами, ресурсы СХД должны увеличиваться и уменьшаться, чтобы оставаться эффективными с точки зрения финансовых затрат. Приоритетное внимание лучше уделять линейной масштабируемости.
Безопасность. Вопросы совместимости
Безопасность нельзя ставить на последнее место. Шифрование данных, контроль доступа, аудит активности, сегментация сети — эти и другие средства помогут защитить СХД от несанкционированного доступа, краж данных.
Теперь про совместимость. Открытые стандарты позволяют избежать привязки к поставщику. К сожалению, они отсутствуют в большинстве российских платформ. Интеграция API позволит использовать подход типа «инфраструктура как код».
Цена платформы
Бюджет всегда важен. Сравните как первоначальные, так и текущие затраты по разным статьям. Что это за статьи? Например, разные типы лицензирования, твердотельные накопители (по сравнению с жесткими дисками), плата за поддержку, охлаждение, масштабирование емкости.
Система хранения данных MWS
MWS предоставляет СХД корпоративного уровня — с высокой доступностью, отказоустойчивостью, масштабируемостью и услугами передачи данных. Попробуйте ее бесплатно!
Коротко о главном:
● СХД обеспечивает пространство для хранения, защиты, управления, поиска данных и доступа к ним.
● Объектное хранилище — архитектура хранения, которая управляет данными как объектами, содержащими метаданные, а не файлами или блоками.
● Объектное хранилище обрабатывает неструктурированные данные в качестве автономных объектов с помощью REST API (по протоколу HTTP). Отсюда возможность масштабироваться до колоссальных мощностей.
● Облачное хранилище — это гибкие облачные ресурсы хранения данных по запросу, предоставляемые через интернет. Удобно, быстро, очень производительно.
● Самые известные облачные СХД — S3 buckets, Azure Blobs и GCP Cloud Storage. Они дают практически неограниченное хранилище, которое можно масштабировать как вверх, так и вниз за счет автоматизации.