Системы хранения данных, СХД, RAID, SAN, NAS, OSD, CAS, виртуализация хранилища

Системы хранения данных

 

Технология RAID

RAID (Redundant Array of Independent Disks) - избыточный массив независимых дисков.

Хранение избыточной информации (контрольной суммы) позволяет восстанавливать потерянные данные.

RAID-массив может быть реализован двумя способами: программным (с ограничениями) и аппаратным. В первом случае RAID-массивом управляет специальная программа на хосте, во втором — внешний аппаратный контроллер, который может находиться на хосте или на самом RAID-массиве.

Методы RAID

Чередование

Метод чередования повышает производительность (скорость операций чтения и записи данных).

Большой блок данных разбивается на маленькие кусочки, которые одновременно пишутся на несколько дисков (информация распределяется по нескольким дискам).

При выходе из строя одного из дисков информацию уже нельзя восстановить.

Зеркалирование

Метод зеркалирования обеспечивает защиту информации (отказоустойчивость): две копии данных хранятся на двух разных дисках (дублирование). При выходе из строя одного из дисков на втором остаётся его полная копия.

При зеркалировании скорость чтения увеличивается (так как разные данные могут считываться одновременно с двух дисков), но скорость записи уменьшается (так как одни и те же данные записываются на два диска).

Контроль чётности

Метод контроля чётности обеспечивает высокую производительность метода чередования и более дешёвую (чем метод зеркалирования) защиту информации.

Информация распределяется по нескольким дискам (1, 2, 3, 4), а на диск 5 записывается контрольная сумма.

  Диск 1     Диск 2     Диск 3     Диск 4   Диск с контрольной суммой
1 2 1 3 1+2+1+3=7
3 1 2 3 3+1+2+2=8
3 1 1 4 3+1+1+4=9

При выходе из строя одного из дисков информация на нём может быть восстановлена (нужно вычесть из контрольной суммы сумму данных на оставшихся дисках).

Например, вышел из строя диск 3:

  Диск 1     Диск 2     Диск 3     Диск 4   Диск с контрольной суммой
1 2 7-1-1-3=2 3 7
3 1 8-3-2-2=1 3 8
3 1 9-3-1-4=1 4 9

Для защиты информации методом зеркалирования нам понадобилось 100% дополнительного дискового пространства, а методом контрольной суммы — только 25%.

Метод контрольной суммы работает медленнее, чем метод чередования, так как требуется дополнительное время на расчёт контрольной суммы.

RAID-уровни

В зависимости от требований приложения к производительности, доступности данных (отказоустойчивости) и стоимости хранения выбирается соответствующий RAID-уровень.

Уровень Описание Мин. кол-во дисков
RAID 0 Метод чередования (не обеспечивает отказоустойчивости) 2
RAID 1 Метод зеркалирования 2
RAID 01 Чередование на зеркалированные наборы дисков 4
RAID 10 Зеркалирование на чередующиеся наборы дисков 4
RAID 3 Контрольная сумма хранится на выделенном диске 3
RAID 4 3
RAID 5 Контрольная сумма распределяется по всем дискам 3
RAID 6 Две контрольные суммы распределяются по всем дискам. Устойчив к отказу 2-х дисков. 4

Горячее резервирование

При горячем резервировании выполняется (автоматически или по команде администратора) операция восстановления данных отказавшего диска на резервном носителе.

При замене отказавшего диска информация автоматически копируется с резервного носителя на новый диск.

Интеллектуальные системы хранения данных

В обычной системе хранения данных хост обращается напрямую к физическим дискам (RAID-массиву).

В интеллектуальной системе хранения данных хост обращается сначала к кэш-памяти контроллера хранилища.

Кэш-память представляет собой оперативную память, поэтому операции чтения данных из кэш-памяти и записи данных в кэш-память происходят быстрее, чем при работе непосредственно с дисками.

Контроллер хранилища должен так управлять кэш-памятью, чтобы максимизировать производительность системы хранения данных (своевременно заполнять кэш-память наиболее востребованными данными и освобождать её от невостребованных данных).

Для защиты энергозависимой кэш-памяти от сбоев сетевого питания используют питание от батареи, а для защиты от аппаратных сбоев — зеркалирование кэш-памяти.

Сети хранения данных

SAN – Storage Area Network – сеть хранения данных (СХД).

SAN-устройство - это совместно используемое внешнее хранилище данных, которое подключается к хостам по высокоскоростной выделенной сети.

SAN – система централизованного хранения данных.
SAN предоставляет хостам доступ к данным на блочном уровне.

LUN - Logical Unit Number — виртуальный диск в сети хранения данных.
LUN представляется хосту как физический локальный диск.

Виртуализация хранилища на уровне блоков

В виртуализованной SAN-среде хосты обращаются не к LUN-устройствам, а к виртуальным томам. Виртуальные тома могут создаваться из пула LUN-устройств разных физических хранилищ.

Размер виртуального тома может быть увеличен незаметно для хоста. Данные могут переноситься между LUN-устройствами незаметно для пользователя.

Сетевые протоколы SAN

  • Fibre Channel (FC SAN)
  • IP SAN
    • iSCSI - Internet SCSI
    • FCIP - Fibre Channel over IP
    • FCoE - Fibre Channel over Ethernet.



Сетевые системы хранения данных

NAS – Network Attached Storage – сетевое хранилище.

NAS-устройство — это компьютер (со специализированной операционной системой и RAID-массивом), который предоставляет пользователям совместный доступ к файлам по сети Ethernet.

Один клиент может одновременно подключиться к нескольким NAS-устойствам, а одно NAS-устройство может одновременно обслуживать несколько клиентов.

NAS - это система централизованного хранения данных.

Примеры способов совместного доступа к файлам:

  • DFS - раcпределённая между несколькими хостами файловая система
  • DNS - система доменных имён
  • FTP/SFTP - протокол передачи файлов
  • Peer-to-peer - файлообменная пиринговая сеть.

Файловые протоколы NAS

  • CIFS - Common Internet File System (Windows)
  • NFS - Network File System (Unix).

Виртуализация на уровне файлов

Виртуализация на уровне файлов в NAS-среде позволяет перемещать файлы между NAS-устройствами незаметно для пользователей. Файлы не привязаны к конкретным устройствам — пользователи обращаются к ним по логическим адресам, а не физическим. Глобальное пространство имён отображает логические адреса на физические.

Объектно-ориентированные хранилища данных

OSD - Object Storage Device.

OSD-устройства служат для хранения неструктурированных файловых данных (фильмов, документов и т.п.), адресуемых не по имени файла и пути хранения, а по уникальному идентификатору контента.

Объект содержит пользовательские данные и метаданные (сведения о владельце, правила доступа, срок хранения объекта и т.п.).

Контентно-адресуемые хранилища

CAS – Content Addressed Storage – контентно-адресуемые хранилища.

Данные в CAS адресуются по контрольной сумме (хеш-сумма).
Хеш-сумма является уникальным идентификатором содержимого пользовательских данных — контентным адресом.

CAS используются для долговременного хранения неизменных данных и быстрого извлечения их по требованию.

Примеры объектов хранения в CAS: медицинские карточки и финансовые записи.
CAS гарантирует неизменность и подлинность данных.

Прикладные протоколы CAS

  • REST - Representational State Transfer
  • SOAP - Simple Object Access Protocol
  • API - Application Programming Interface.

Унифицированные OSD-устройства

Унифицированные OSD-устройства одновременно являются NAS-, SAN- и OSD-устройствами: предоставляют NAS-клиентам совместный доступ к файлам, серверам приложений - доступ к данным хранилища на блочном уровне, серверам веб-приложений — доступ к объектам.

Сравнение SAN, NAS и OSD

SAN NAS OSD
Совместный доступ к данным блочный файловый объектный
Управляет файловой системой приложение NAS-устройство нет файловой системы
Протоколы сетевые файловые веб-протоколы
Виртуализация на уровне блоков на уровне файлов облачная