Дисковые массивы raid используются в архитектуре чего. Все про RAID массивы из жестких дисков (HDD). История и развитие RAID

RAID – аббревиатура, расшифровываемая как Redundant Array of Independent Disks – “отказоустойчивый массив из независимых дисков” (раньше иногда вместо Independent использовалось слово Inexpensive). Концепция структуры, состоящей из нескольких дисков, объединенных в группу, обеспечивающую отказоустойчивость родилась в 1987 году в основополагающей работе Паттерсона, Гибсона и Катца.

Исходные типы RAID-массивов

RAID-0
Если мы считаем, что RAID это “отказоустойчивость”(Redundant…), то RAID-0 это “нулевая отказоустойчивость”, отсутствие ее. Структура RAID-0 это “массив дисков с чередованием”. Блоки данных поочередно записываются на все входящие в массив диски, по порядку. Это повышает быстродействие, в идеале во столько раз, сколько дисков входит в массив, так как запись распараллеливается между несколькими устройствами.
Однако во столько же раз снижается надежность, поскольку данные будут потеряны при выходе из строя любого из входящих в массив дисков.

RAID-1
Это так называемое “зеркало”. Операции записи производятся на два диска параллельно. Надежность такого массива выше, чем у одиночного диска, однако быстродействие повышается незначительно (или не повышается вовсе).

RAID-10
Попытка объединить достоинства двух типов RAID и лишить их присущих им недостатков. Если взять группу RAID-0 с повышенной производительностью, и придать каждому из них (или массиву целиком) “зеркальные” диски для защиты данных от потери в результате выхода из строя, мы получим отказоустойчивый массив с повышенным, в результате использования чередования, быстродействием.
На сегодняшний день “в живой природе” это один из наиболее популярных типов RAID.
Минусы – мы платим за все вышеперечисленные достоинства половиной суммарной емкости входящих в массив дисков.

RAID-2
Остался полностью теоретическим вариантом. Это массив, в котором данные кодируются помехоустойчивым кодом Хэмминга, позволяющим восстанавливать отдельные сбойные фрагменты за счет его избыточности. Кстати различные модификации кода Хэмминга, а также его наследников, используются в процессе считывания данных с магнитных головок жестких дисков и оптических считывателей CD/DVD.

RAID-3 и 4
“Творческое развитие” идеи защиты данных избыточным кодом. Код Хэмминга незаменим в случае “постоянно недостоверного” потока, насыщенного непрерывными слабопредсказуемыми ошибками, такого, например, как зашумленный эфирный канал связи. Однако в случае жестких дисков основная проблема не в ошибках считывания (мы считаем, что данные выдаются жесткими дисками в том виде, в каком мы их записали, если уж он работает), а в выходе из строя целиком диска.
Для таких условий можно скомбинировать схему с чередованием (RAID-0) и для защиты от выхода из строя одного из дисков дополнить записываемую информацию избыточностью, которая позволит восстановить данные при потере какой-то ее части, выделив под это дополнительный диск.
При потере любого из дисков данных мы можем восстановить хранившиеся на нем данные путем несложных математических операций над данными избыточности, в случае выходя из строя диска с данными избыточности мы все равно имеем данные, считываемые с дискового массива типа RAID-0.
Варианты RAID-3 и RAID-4 отличаются тем, что в первом случае чередуются отдельные байты, а во втором – группы байт, “блоки”.
Основным недостатком этих двух схем является крайне низкая скорость записи на массив, поскольку каждая операция записи вызывает обновление “контрольной суммы”, блока избыточности для записанной информации. Очевидно, что, несмотря на структуру с чередованием, производительность массива RAID-3 и RAID-4 ограничена производительностью одного диска, того, на котором лежит “блок избыточности”.

RAID-5
Попытка обойти это ограничение породила следующий тип RAID, в настоящее время он получил, наряду с RAID-10, наибольшее распространение. Если запись на диск “блока избыточности” ограничивает весь массив, давайте его тоже размажем по дискам массива, сделаем для этой информации невыделенный диск, тем самым операции обновления избыточности окажутся распределенными по всем дискам массива. То есть мы также как и в случае RAID-3(4) берем дисков для хранения N информации в количестве N + 1 диск, но в отличие от Type 3 и 4 этот диск также используется для хранения данных вперемешку с данными избыточности, как и остальные N.
Недостатки? А как же без них. Проблема с медленной записью отчасти была решена, но все же не полностью. Запись на массив RAID-5 осуществляется, тем не менее, медленнее, чем на массив RAID-10. Зато RAID-5 более “экономически эффективен”. Для RAID-10 мы платим за отказоустойчивость ровно половиной дисков, а в случае RAID-5 это всего один диск.

Однако скорость записи снижается пропорционально увеличению количества дисков в массиве (в отличие от RAID-0, где она только растет). Это связано с тем, что при записи блока данных массиву нужно заново рассчитать блок избыточности, для чего прочитать остальные “горизонтальные” блоки и пересчитать в соответствии с их даными блок избыточности. То есть на одну операцию записи массив из 8 дисков (7 дисков данных + 1 дополнительный) будет делать 6 операций чтения в кэш (остальные блоки данных со всех дисков, чтобы рассчитать блок избыточности), вычислять из этих блоков блок избыточности, и делать 2 записи (запись блока записываемых данных и перезапись блока избыточности). В современных системах частично острота снимается за счет кэширования, но тем не менее удлиннение группы RAID-5 хотя и вызывает пропорциональное увеличение скорости чтения, но также и соответственное ему снижение скорости записи.
Ситуация со снижением производительности при записи на RAID-5 иногда порождает любопытный экстремизм, например, http://www.baarf.com/ ;)

Тем не менее, поскольку RAID-5 есть наиболее эффективная RAID-структура с точки зрения расхода дисков на “погонный мегабайт” он широко используется там, где снижение скорости записи не является решающим параметром, например для долговременного хранения данных или для данных, преимущественно считываемых.
Отдельно следует упомянуть, что расширение дискового массива RAID-5 добавлением дополнительного диска вызывает полное пересчитывание всего RAID, что может занимать часы, а в отдельных случаях и дни, во время которых производительность массива катастрофически падает.

RAID-6
Дальнейшее развитие идеи RAID-5. Если мы рассчитаем дополнительную избыточность по иному нежели применяемому в RAID-5 закону, то мы сможем сохранить доступ к данным при отказе двух дисков массива.
Платой за это является дополнительный диск под данные второго “блока избыточности”. То есть для хранения данных равных объему N дисков нам нужно будет взять N + 2 диска.Усложняется “математика” вычисления блоков избыточности, что вызывает еще большее снижение скорости записи по сравнению с RAID-5, зато повышается надежность. Причем в ряде случаев она даже превышает уровень надежности RAID-10. Нетрудно увидеть, что RAID-10 тоже выдерживает выход из строя двух дисков в массиве, однако в том случае, если эти диски принадлежат одному “зеркалу” или разным, но при этом не двум зеркальным дискам. А вероятность именно такой ситуации никак нельзя сбрасывать со счета.

Дальнейшее увеличение номеров типов RAID происходит за счет “гибридизации”, так появляются RAID-0+1 ставший уже рассмотренным RAID-10, или всяческие химерические RAID-51 и так далее.
В живой природе к счастью не встречаются, обычно оставаясь “сном разума” (ну, кроме уже описанного выше RAID-10).

RAID (Redundant Array of Independent Disks) — избыточный массив независимых дисков, т.е. объединение физических жестких дисков в один логический для решения каких либо задач. Скорее всего, вы его будете использовать для отказоустойчивости. При выходе из строя одного из дисков система будет продолжать работать. В операционной системе массив будет выглядеть как обычный HDD. RAID – массивы зародились в сегменте серверных решений, но сейчас получили широкое распространение и уже используются дома. Для управления RAID-ом используется специальная микросхема с интеллектом, которая называется RAID-контроллер. Это либо чипсет на материнской плате, либо отдельная внешняя плата.

Типы RAID массивов

Аппаратный – это когда состоянием массива управляет специальная микросхема. На микросхеме есть свой CPU и все вычисления ложатся на него, освобождая CPU сервера от лишней нагрузки.

Программный – это когда состоянием массива управляет специальная программа в ОС. В этом случае будет создаваться дополнительная нагрузка на CPU сервера. Ведь все вычисления ложатся именно на него.

Однозначно сказать какой тип рейда лучше – нельзя. В случае программного рейда нам не нужно покупать дорогостоящий рейд-контроллер. Который обычно стоит от 250 у.е. (можно найти и за 70 у.е. но я бы не стал рисковать данными) Но все вычисления ложатся на CPU сервера. Программная

реализация хорошо подходит для рейдов 0 и 1. Они достаточно просты и для их работы не нужны большие вычисления. Поэтому программные рейды чаще используют в решениях начального уровня. Аппаратный рейд в своей работе использует рейд-контроллер. Рейд-контроллер имеет свой процессор для вычислений, и именно он производит операции ввода/вывода.

Уровни RAID-массивов

Их достаточно много. Это основные – 0, 1, 2, 3, 4, 5, 6, 7 и комбинированные – 10, 30, 50, 53… Мы рассмотрим только самые ходовые, которые используются в современной инфраструктуре предприятия. Буква D в схемах означает Data (данные), или блок данных.

RAID 0 (Striped Disk Array without Fault Tolerance)

Он же stripe. Это когда два или более физических дисков объединяются в один логический с целью объединения места. То есть берем два диска по 500 Гб, объединяем их в RAID 0 и в системе видим 1 HDD объемом в 1 Тб. Информация распределяется по всем дискам рейда равномерно в виде небольших блоков (страйпов).

Плюсы – Высокая производительность, простота реализации.

Минусы – отсутствие отказоустойчивости. При использование этого рейда надежность системы понижается в два раза (если используем два диска). Ведь при выходе из строя хотя бы одного диска вы теряете все данные.

RAID 1 (Mirroring & Duplexing)

Он же mirror. Это когда два или более физических дисков объединяются в один логический диск с целью повышения отказоустойчивости. Информация пишется сразу на оба диска массива и при выходе одного из них информация сохраняется на другом.

Плюсы – высокая скорость чтения/записи, простота реализации.

Минусы – высокая избыточность. В случае использования 2-х дисков это 100%.

RAID 1E

RAID 1E работает так: три физических диска объединяются в массив, после чего создается логический том. Данные распределяются по дискам, образуя блоки. Порция данных (strip), помеченная ** – это копия предшествующей ей порции *. При этом каждый блок зеркальной копии записывается со сдвигом на один диск

Наиболее простое в реализации из отказоустойчивых решений – это RAID 1 (mirroring), зеркальное отображение двух дисков. Высокая доступность данных гарантирована наличием двух полных копий. Такая избыточность структуры массива сказывается на его стоимости – ведь полезная емкость вдвое меньше используемой. Поскольку RAID 1 строится на двух HDD – этого явно мало современным, прожорливым до дискового пространства приложениям. В силу таких требований область применения RAID 1 обычно ограничивается служебными томами (OS, SWAP, LOG), для размещения пользовательских данных ими пользуются разве что в малобюджетных решениях.

RAID 1E – это комбинация распределения информации по дискам (striping) от RAID 0 и зеркалирования – от RAID 1. Одновременно с записью области данных на один накопитель создается их копия на следующем диске массива. Отличие от RAID 1 в том, что количество HDD может быть нечетным (минимум 3). Как и в случае с RAID 1, полезная емкость составляет 50% суммарной емкости дисков массива. Правда, если количество дисков четное, предпочтительней использовать RAID 10, который при той же утилизации емкости состоит из двух (или больше) «зеркал». При физическом отказе одного из дисков RAID 1E контроллер переключает запросы чтения и записи на оставшиеся диски массива.

Преимущества:

  • высокая защищенность данных;
  • неплохая производительность.

Недостатки:

  • как и в RAID 1, используется лишь 50% емкости дисков массива.

RAID 2

В массивах такого типа диски делятся на две группы - для данных и для кодов коррекции ошибок, причем если данные хранятся на дисках, то для хранения кодов коррекции необходимо дисков. Данные записываются на соответствующие диски так же, как и в RAID 0, они разбиваются на небольшие блоки по числу дисков, предназначенных для хранения информации. Оставшиеся диски хранят коды коррекции ошибок, по которым в случае выхода какого-либо жёсткого диска из строя возможно восстановление информации. Метод Хемминга давно применяется в памяти типа ECC и позволяет на лету исправлять однократные и обнаруживать двукратные ошибки.

Недостаток массива RAID 2 в том, что для его функционирования нужна структура из почти двойного количества дисков, поэтому такой вид массива не получил распространения.

RAID 3

В массиве RAID 3 из дисков данные разбиваются на куски размером меньше сектора (разбиваются на байты) или блока и распределяются по дискам. Ещё один диск используется для хранения блоков чётности. В RAID 2 для этой цели применялся диск, но большая часть информации на контрольных дисках использовалась для коррекции ошибок на лету, в то время как большинство пользователей удовлетворяет простое восстановление информации в случае поломки диска, для чего хватает информации, умещающейся на одном выделенном жёстком диске.

Отличия RAID 3 от RAID 2: невозможность коррекции ошибок на лету и меньшая избыточность.

Достоинства:

  • высокая скорость чтения и записи данных;
  • минимальное количество дисков для создания массива равно трём.

Недостатки:

  • массив этого типа хорош только для однозадачной работы с большими файлами, так как время доступа к отдельному сектору, разбитому по дискам, равно максимальному из интервалов доступа к секторам каждого из дисков. Для блоков малого размера время доступа намного больше времени чтения.
  • большая нагрузка на контрольный диск, и, как следствие, его надёжность сильно падает по сравнению с дисками, хранящими данные.

RAID 4

RAID 4 похож на RAID 3, но отличается от него тем, что данные разбиваются на блоки, а не на байты. Таким образом, удалось отчасти «победить» проблему низкой скорости передачи данных небольшого объёма. Запись же производится медленно из-за того, что чётность для блока генерируется при записи и записывается на единственный диск. Из систем хранения широкого распространения RAID-4 применяется на устройствах хранения компании NetApp (NetApp FAS), где его недостатки успешно устранены за счет работы дисков в специальном режиме групповой записи, определяемом используемой на устройствах внутренней файловой системой WAFL.

RAID 5 (Independent Data Disks with Distributed Parity Blocks)

Самый популярный вид рейд-массива, в целом благодаря экономичности использования носителей данных. Блоки данных и контрольные суммы циклически записываются на все диски массива. При выходе из строя одного из дисков будет заметно снижена производительность, так как придется совершать дополнительные манипуляции для функционирования массива. Сам по себе рейд имеет достаточно хорошую скорость чтения/записи но немного уступает RAID 1. Нужно не менее трех дисков чтобы организовать RAID 5.

Плюсы – экономичное использование носителей, хорошая скорость чтения/записи. Разница в производительности по сравнению с RAID 1 не так сильно видна как экономия дискового пространства. В случае использования трех HDD избыточность составляет всего 33%.

Минусы – сложное восстановление данных и реализация.

RAID 5E

RAID 5E работает так. Из четырех физических дисков собирается массив, в нем создается логический диск. Распределенный резервный диск – это свободное пространство. Данные распределяются по накопителям, создавая блоки на логическом диске. Контрольные суммы также распределяются по дискам массива и записываются со сдвигом от диска к диску, как и в RAID 5. Резервный HDD остается пустым.

«Классический» RAID 5 много лет считается стандартом отказоустойчивости дисковых подсистем. В нем применяется распределение данных (striping) по HDD массива, для каждой из порций (stripe), определенной в нем, вычисляются и записываются контрольные суммы (четность, parity). Соответственно, скорость записи снижается из-за постоянного пересчета КС с поступлением новых данных. Для увеличения производительности записи КС распределяются по всем накопителям массива, чередуясь с данными. Под хранение КС расходуется емкость одного носителя, поэтому RAID 5 утилизирует на один диск меньше их общего количества в массиве. RAID 5 требует минимум трех (и максимум 16) НЖМД, его КПД использования дискового пространства находится в диапазоне 67–94% в зависимости от числа дисков. Очевидно, что это больше, чем у RAID 1, утилизирующего 50% доступной емкости.

Малые накладные расходы для реализации избыточности RAID 5 оборачиваются достаточно сложной реализацией и длительным процессом восстановления данных. Подсчет контрольных сумм и адресов возлагается на аппаратный RAID-контроллер с высокими требованиями к его процессору, логике и кэш-памяти. Производительность массива RAID 5 в его деградированном состоянии крайне низка, а время восстановления измеряется часами. В итоге проблема неполноценности массива усугубляется рисками повторного отказа одного из дисков до того момента, когда RAID будет восстановлен. Это приводит к разрушению тома данных.

Распространен подход c включением в RAID 5 выделенного диска горячего резерва (hot-spare) – для снижения времени простоя до физической замены сбойного диска. После отказа одного из накопителей исходного массива контроллер включает резервный диск в массив и начинает процесс перестройки RAID. Важно уточнить, что до этого первого отказа резервный накопитель работает на холостом ходу, годами может не участвовать в функционировании массива и не проверяться на ошибки поверхности. Равно как и тот, который позже принесут по гарантийной замене вместо сбойного, вставят в дисковую корзину и назначат резервным. Большим сюрпризом может стать его неработоспособность, причем выяснится это в самый неподходящий момент.

RAID 5E – это RAID 5 с включенным в массив резервным диском (hot-spare) постоянного использования, емкость которого добавляется поровну к каждому элементу массива. Для RAID 5E требуется минимум четыре HDD. Как и у RAID 5, данные и контрольные суммы распределяются по дискам массива. Утилизация полезной емкости у RAID 5E несколько ниже, зато производительность выше, чем у RAID 5 c hot-spare.

Емкость логического тома RAID 5E меньше общей емкости на объем двух носителей (емкость одного уходит под контрольные суммы, второго – под hot-spare). Зато чтение и запись на четыре физических устройства RAID 5E быстрее операций с тремя физическими накопителями RAID 5 с классическим hot-spare (в то время как четвертый, hot-spare, участия в работе не принимает). Резервный диск в RAID 5E – полноправный постоянный член массива. Его невозможно назначить резервным двум разным массивам («слугой двух господ» – как это допускается в RAID 5).

При отказе одного из физических дисков данные со сбойного накопителя восстанавливаются. Массив подвергается сжатию, и распределенный резервный диск становится частью массива. Логический диск остается уровня RAID 5E. После замены сбойного диска на новый данные логического диска разворачиваются в исходное состояние схемы распределения по HDD. При использовании логического диска RAID 5E в отказоустойчивых кластерных схемах он не будет выполнять свои функции во время компрессии-декомпрессии данных.

Преимущества:

  • высокая защищенность данных;
  • утилизация полезной емкости выше, чем у RAID 1 или RAID 1E;
  • производительность выше, чем у RAID 5.

Недостатки:

  • производительность ниже, чем у RAID 1E;
  • не может делить резервный диск с другими массивами.

RAID 5EE

Примечание: поддерживается не во всех контроллерах RAID level-5EE подобен массиву RAID-5E, но с более эффективным использованием резервного диска и более коротким временем восстановления. Подобно RAID level-5E, этот уровень RAID-массива создает ряды данных и контрольных сумм во всех дисках массива. Массив RAID-5EE обладает улучшенной защитой и производительностью. При применении RAID level-5E, емкость логического тома ограничивается емкостью двух физических винчестеров массива (один для контроля, один резервный). Резервный диск является частью массива RAID level-5EE. Тем не менее, в отличие от RAID level-5E, использующего неразделенное свободное место для резерва, в RAID level-5EE в резервный диск вставлены блоки контрольных сумм, как показывается далее на примере. Это позволяет быстрее перестраивать данные при поломке физического диска. При такой конфигурации, вы не сможете использовать его с другими массивами. Если вам необходим запасной диск для другого массива, вам следует иметь еще один резервный винчестер. RAID level-5E требует как минимум четырех дисков и, в зависимости от уровня прошивки и их емкости, поддерживает от 8 до 16 дисков. RAID level-5E обладает определенной прошивкой. Примечание: для RAID level-5EЕ, вы можете использовать только один логический том в массиве.

Достоинства:

  • 100% защита данных
  • Большая емкость физических дисков по сравнению с RAID-1 или RAID -1E
  • Большая производительность по сравнению с RAID-5
  • Более быстрое восстановление RAID по сравнению с RAID-5Е

Недостатки:

  • Более низкая производительность, чем в RAID-1 или RAID-1E
  • Поддержка только одного логического тома на массив
  • Невозможность совместного использования резервного диска с другими массивами
  • Поддержка не всех контроллеров

RAID 6

RAID 6 - похож на RAID 5, но имеет более высокую степень надёжности - под контрольные суммы выделяется ёмкость 2-х дисков, рассчитываются 2 суммы по разным алгоритмам. Требует более мощный RAID-контроллер. Обеспечивает работоспособность после одновременного выхода из строя двух дисков - защита от кратного отказа. Для организации массива требуется минимум 4 диска. Обычно использование RAID-6 вызывает примерно 10-15% падение производительности дисковой группы, по сравнению с аналогичными показателями RAID-5, что вызвано большим объёмом обработки для контроллера (необходимость рассчитывать вторую контрольную сумму, а также прочитывать и перезаписывать больше дисковых блоков при записи каждого блока).

RAID 7

RAID 7 — зарегистрированная торговая марка компании Storage Computer Corporation, отдельным уровнем RAID не является. Структура массива такова: на дисках хранятся данные, один диск используется для складирования блоков чётности. Запись на диски кешируется с использованием оперативной памяти, сам массив требует обязательного ИБП; в случае перебоев с питанием происходит повреждение данных.

RAID 10 или RAID 1+0 (Very High Reliability with High Performance)

Сочетание зеркального рейда и рейда с чередованием дисков. В работе этого вида рейда диски объединяются парами в зеркальные рейды (RAID 1) а затем все эти зеркальные пары объединяются в массив с чередованием (RAID 0). В рейд можно объединить только четное количество дисков, минимум – 4, максимум – 16. От RAID 1 мы наследуем надежность, от RAID 0 — скорость.

Плюсы – высокая отказоустойчивость и производительность

Минусы – высокая стоимость

RAID 50 или RAID 5+0 (High I/O Rates & Data Transfer Performance)

Он же RAID 50, это сочетание RAID 5 и RAID 0. Массив объединяет в себе высокую производительность и отказоустойчивость.

Плюсы – высокая отказоустойчивость, скорость передачи данных и выполнение запросов

Минусы – высокая стоимость

RAID 60

RAID-массив уровня 60 объединены характеристики из уровней 6 и 0. RAID 60 массива объединяет прямой уровне блоков чередование RAID 0 с распределенной дважды паритет в RAID 6, а именно: массива RAID 0 распределяются среди RAID 6 элементов. RAID 60 виртуальный диск может выжить о потере двух жестких дисков в каждом из RAID 6 устанавливает без потери данных. Она является наиболее эффективной с данными, нужна высокая надежность, высокая запрос курсы, высокие передачу данных, и средних и крупных емкости. Минимальное количество дисков-8.

Линейный RAID

Линейный RAID представляет собой простое объединение дисков, создающее большой виртуальный диск. В линейном RAID, блоки выделяются сначала на одном диске, включенном в массив, затем, если этот заполнен, на другом и т.д. Такое объединение не даёт выигрыша в производительности, так как скорее всего операции ввода/вывода не будут распределены между дисками. Линейный RAID также не содержит избыточности и, в действительности, увеличивает вероятность сбоя - если всего одни диск откажет, весь массив выйдет из строя. Ёмкость массива равняется суммарной ёмкости всех дисков.

Главный вывод, который можно сделать – у каждого уровня рейда есть свои плюсы и минусы.

Еще главнее вывод – рейд не гарантирует целостности ваших данных. То есть если кто-то удалит файл или он будет поврежден, каким либо процессом, рейд нам не поможет. Поэтому рейд не освобождает нас от необходимости делать бекапы. Но помогает, когда возникают проблемы с дисками на физическом уровне.

Если Вы хотите увеличить быстродействие своей операционной системы в два раза, то наша статья для Вас!

Каким бы мощным не был Ваш компьютер, у него до сих пор остаётся одно слабое звено, это жёсткий диск, единственное устройство в системном блоке имеющее внутри механику. Вся мощь вашего процессора и 16 ГБ оперативной памяти будут сведены на нет устаревшим принципом работы обычного HDD. Не зря компьютер сравнивают с бутылкой, а жёсткий диск с её горлышком. Сколько бы воды в бутылке не было, выливаться она будет через узкое горлышко.

Известно два способа ускорить работу компьютера, первый, это купить дорогой твердотельный накопитель SSD, а второй, по максимуму использовать возможности вашей материнской платы, а именно, настроить RAID 0 массив из двух жёстких дисков. Кстати, а кто нам мешает создать RAID 0 массив из двух SSD!

Как настроить RAID 0 массив и установить на него Windows 10. Или как увеличить быстродействие дисковой системы в два раза

Как вы догадались, сегодняшняя статья о создании и настройке дискового массива RAID 0 состоящего из двух жёстких дисков. Задумал я её несколько лет назад и специально приобрёл два новых винчестера SATA III (6 Гбит/с) по 250 ГБ, но в силу сложности данной темы для начинающих пользователей пришлось её тогда отложить. Сегодня же, когда возможности современных материнских плат подошли к такому уровню функциональности, что RAID 0 массив может создать даже начинающий, я с большим удовольствием возвращаюсь к этой теме.

Примечание : Для создания RAID 0 массива можно взять диски любого объёма, например по 1 ТБ. В статье, для простого примера, взяты два диска по 250 ГБ, так как свободных дисков другого объёма не оказалось под руками.

Всем компьютерным энтузиастам важно знать, что RAID 0 («striping» или «страйпинг»), это – дисковый массив из двух или более жёстких дисков с отсутствием избыточности. Перевести данную фразу на обычный русский можно так: при установке в системный блок двух или более жёстких дисков (желательно одного объёма и одного производителя) и объединении их в дисковый массив RAID 0, информация на эти диски записывается/читается одновременно, что в два раза увеличивает производительность дисковых операций. Единственное условие - ваша материнская плата должна поддерживать технологию RAID 0 (в наше время практически все материнки поддерживают создание рейд-массивов).

Внимательный читатель может спросить: «А что такое отсутствие избыточности?»

Ответ. Технология виртуализации данных RAID разработана в первую очередь для безопасности данных и начинается с , который обеспечивает двойную надёжность (запись данных производится на два жёстких диска параллельно и при поломке одного винчестера вся информация остаётся в сохранности на другом HDD). Так вот, технология RAID 0 не записывает данные параллельно на два жёстких диска, RAID 0 разбивает при записи информацию на блоки данных и записывает её на несколько винчестеров одновременно, за счёт этого производительность дисковых операций вырастает в два раза, но при выходе из строя любого жёсткого диска вся информация на втором HDD теряется.

Вот по этому создатели технологии виртуализации RAID - Ренди Кац и Дэвид Паттерсон, не считали RAID 0 за какой-либо уровень RAID и назвали его "0", так как он не является безопасным из-за отсутствия избыточности.

Друзья, но согласитесь, что жёсткие диски ломаются не каждый день, а во вторых, с двумя HDD, объединёнными в RAID 0 массив, можно работать как с простым жёстким диском, то есть, если вы периодически будете делать операционной системы, то вы застрахуете себя от возможных проблем на 100%.

Итак, перед созданием RAID 0 массива предлагаю установить один из двух наших новых жёстких дисков SATA III (6 Гбит/с) в системный блок и проверить его на скорость чтения записи утилитами CrystalDiskMark и ATTO Disk Benchmark. Уже после создания RAID 0 массива и установки на него Windows 10 мы ещё раз проверим скорость чтения записи этими же утилитами и посмотрим, на самом ли деле данная технология увеличит быстродействие нашей операционной системы.

Для проведения эксперимента возьмём далеко не новую материнскую плату ASUS P8Z77-V PRO построенную на чипсете Intel Z77 Express. Преимущества материнских плат построенных на чипсетах Intel Z77, Z87 и более новых H87, B87 заключаются в продвинутой технологии Intel Rapid Storage Technology (RST), которая специально разработана для RAID 0-массивов даже из SSD.

Подсоединяем жёсткий диск SATA III WDC WD2500AAKX 250 ГБ к высокоскоростному порту на материнской плате и включаем компьютер.

Нашими программами.

Забегая вперёд скажу, результаты теста вполне обычные для обычного HDD самого современного интерфейса SATA III .

CrystalDiskMark

Является старейшей программой для тестирования производительности жёстких дисков, скачать можете на моём облачном хранилище, ссылка https://cloud.mail.ru/public/6kHF/edWWJwfxa

Программа производит тест случайного и последовательного чтения/записи на винчестер блоками по 512 и 4 кб.

Выбираем нужный накопитель, к примеру наш с Вами HDD под буквой C: и жмём All.

Итоговый результат. Максимальная скорость записи информации на жёсткий диск достигала 104 Мб/с, скорость чтения - 125 Мб/сек.

ATTO Disk Benchmark

Итоговый результат. Максимальная скорость записи информации на жёсткий диск достигала 119 Мб/с, скорость чтения - 121 Мб/сек.

Ну а теперь настраиваем наш RAID 0 массив в БИОС и устанавливаем на него операционную систему Windows 10.

Настройка RAID 0 массива

Подсоединяем к нашей материнской плате два одинаковых в объёме (250 ГБ) жёстких диска SATA III : WDC WD2500AAKX-00ERMA0 и WDC WD2500AAKX-001CA0.

На нашей материнке есть 4 порта SATA III (6 Гбит/с), использовать будем №5 и №6


Включаем компьютер и входим в БИОС с помощью нажатия клавиши DEL при загрузке.

Идём на вкладку Advanced, опция SATA Configuration.

Опцию SATA Mode Selection выставляем в положение RAID

Для сохранения изменений жмём F10 и выбираем Yes. Происходит перезагрузка.

Если вы подключили в БИОС технологию RAID, то при следующей загрузке на экране монитора появится предложение нажать клавиатурное сочетание (CTRL-I ), для входа в панель управления конфигурации RAID.

Ещё в данном окне отображены подключенные к портам 4 и 5 наши жёсткие диски WDC, пока находящихся не в RAID-массиве (Non-RAID Disk). Жмём CTRL-I и входим в панель настроек.


В начальном окне панели нам нужна первая вкладкаCreate a RAID Volume (Создать том RAID), чтобы войти в неё жмём Enter.

Здесь производим основные настройки нашего будущего RAID 0 массива.

Name : (Имя RAID-массива).

Нажмите на клавишу "пробел" и введите имя.

Пусть будет "RAID 0 new" и жмём Enter. Передвигаемся ниже с помощью клавиши Tab.

RAID Level : (Уровень RAID).

Мы создаём RAID 0 (stripe) - дисковый массив из двух жёстких дисков с отсутствием избыточности. Выберите этот уровень стрелками на клавиатуре и нажмите Enter.

Опускаемся ниже с помощью клавиши Tab.

Stripe Size :

Оставляем как есть.

Capacity : (объём)

Выставляется автоматически. Объём двух наших винчестеров 500 ГБ, так как мы используем уровень RAID 0 (stripe) и два наших жёстких диска работают как один. Ж мём Enter.

Больше ничего не меняем и передвигаемся к последнему пункту Create Volume и жмём Enter.

Появляется предупреждение:

WARNING: ALL DATA ON SELECTED DISKS WILL BE LOST.

Are you sure you want to create this volume? (Y/N):

ВНИМАНИЕ: ВСЕ ДАННЫЕ на выбранных дисках будут потеряны.

Вы уверены, что хотите создать этот объем? (Y / N):

Жмём Y (Да) на клавиатуре.

RAID 0 массив создан и уже функционирует, находится со статусом Normal (нормальный). Для выхода из панели настроек жмём на клавиатуре клавишу Esc.

Are you sure you want to exit (Вы уверены что хотите выйти? Нажимаем Y (Да). Происходит перезагрузка.

Теперь при каждой загрузке компьютера на экране монитора на несколько секунд будет появляться информация о состоянии нашего RAID 0 массива и предложение нажать сочетание клавиш (CTRL-I), для входа в панель управления конфигурации RAID.

Установка Windows 10 на RAID 0 массив

Подсоединяем к нашему системному блоку , перезагружаем компьютер, входим в БИОС и меняем приоритет загрузки на флешку. А можно просто войти в меню загрузки компьютера и выбрать загрузку с установочной флешки Windows 10 (в нашем случае Kingston). В меню загрузки можно увидить созданный нами RAID 0 массив с названием "RAID 0 new".

Установить.

Выборочная: Только установка Windows (для опытных пользователей)

Можете создать разделы в этом окне или сделать это после инсталляции операционной системы, без разницы.

Windows 10 установлена на RAID 0 массив.

Идём в Управление дисками. Операционная система Windows 10 видит пространство двух наших жёстких дисков по 250 ГБ как один жёсткий диск объёмом 500 ГБ.

Диспетчер устройств. В дисковых устройствах находится наш RAID 0 массив.

Ну а теперь, самое главное, проводим тесты скорости работы RAID 0 массива.

CrystalDiskMark

Максимальная скорость записи информации на жёсткий диск достигала 186 Мб/с, скорость чтения - 248 Мб/сек.

В следующей статье мы создадим RAID 0 из твердотельных накопителей SSD и существенно превзойдём пропускную способность самого современного и быстрого интерфейса SATA 6 Гбит/с.

Массивы RAID были разработаны в целях повышения надежности хранения данных, увеличения скорости работы с и для обеспечения возможности объединения нескольких дисков в один большой . Разные типы RAID решают разные задачи, здесь мы рассмотрим несколько наиболее распространенных конфигураций RAID массивов из одинаковых по размеру .



RAID 0

  • RAID 0 (Stripe). Режим, при использовании которого достигается максимальная производительность. Данные равномерно распределяются по дискам массива, объединяются в один, который может быть размечен на несколько. Распределенные операции чтения и записи позволяют значительно увеличить скорость работы, поскольку несколько одновременно читают/записывают свою порцию данных. Пользователю доступен весь объем , но это снижает надежность хранения данных, поскольку при отказе одного из дисков массив обычно разрушается и восстановить данные практически невозможно. Область применения - приложения, требующие высоких скоростей обмена с диском, например видеозахват, видеомонтаж. Рекомендуется использовать с высоконадежными дисками.

    RAID 1
  • RAID 1 (Mirror). Несколько дисков (обычно 2), работающие синхронно на запись, то есть полностью дублирующие друг друга. Повышение производительности происходит только при чтении. Самый надежный способ защитить информацию от сбоя одного из дисков. Из-за высокой стоимости обычно используется при хранении очень важных данных. Высокая стоимость обусловлена тем, что лишь половина от общей емкости доступна для пользователя.

    RAID 10
  • RAID 10 , также иногда называется RAID 1+0 - комбинация двух первых вариантов. (Массив RAID0 из массивов RAID1). Имеет все скоростные преимущества RAID0 и преимущество надежности RAID1, сохраняя недостаток - высокую стоимость дискового массива, так как эффективная ёмкость массива равна половине ёмкости использованных в нём дисков. Для создания такого массива требуется минимум 4 диска. (При этом их число должно быть чётным).
  • RAID 0+1 - Массив RAID1 из массивов RAID0. Фактически не применяется из-за отсутствия преимуществ по сравнению с RAID10 и меньшей отказоустойчивости.

    RAID 1E
  • RAID 1E - Похожий на RAID10 вариант распределения данных по дискам, допускающий использование нечётного числа (минимальное количество - 3)
  • RAID 2, 3, 4 - различные варианты распределенного хранения данных с дисками, выделенными под коды четности и различными размерами блока. В настоящее время практически не используются из-за невысокой производительности и необходимости выделять много дисковой емкости под хранение кодов ЕСС и/или четности.


    RAID 5
  • RAID 5 - массив, также использующий распределенное хранение данных аналогично RAID 0 (и объединение в один большой логический ) + распределенное хранение кодов четности для восстановления данных при сбоях. Относительно предыдущих конфигураций размер Stripe-блока еще больше увеличен. Возможно как одновременное чтение, так и запись. Плюсом этого варианта является то, что доступная для пользователя емкость массива уменьшается на емкость лишь одного диска, хотя надежность хранения данных ниже, чем у RAID 1. По сути, является компромиссом между RAID0 и RAID1, обеспечивая достаточно высокую скорость работы при неплохой надежности хранения данных. При отказе одного диска из массива данные могут быть восстановлены без потерь в автоматическом режиме. Минимальное количество дисков для такого массива - 3.
    "Программные" реализации RAID5, встроенные в южные мосты материнских плат, не отличаются высокой скоростью записи, поэтому годятся далеко не для всех применений.


    RAID 5EE
  • RAID 5EE - массив, аналогичный RAID5, однако кроме распределенного хранения кодов четности используется распределение резервных областей - фактически задействуется , который можно добавить в массив RAID5 в качестве запасного (такие массивы называют 5+ или 5+spare). В RAID 5 массиве резервный диск простаивает до тех пор, пока не выйдет из строя один из основных , в то время как в RAID 5EE массиве этот диск используется совместно с остальными HDD все время, что положительно сказывается на производительность массива. К примеру, массив RAID5EE из 5 HDD сможет выполнить на 25% больше операций ввода/вывода за секунду, чем RAID5 массив из 4 основных и одного резервного HDD. Минимальное количество дисков для такого массива - 4.


    RAID 6
  • RAID 6 - аналог RAID5 c большим уровнем избыточности - информация не теряется при отказе двух любых дисков, соответственно, общая ёмкость массива уменьшается на ёмкость двух дисков. Минимальное количество дисков, необходимое для создания массива такого уровня - 4. Скорость работы в общем случае примерно аналогична RAID5. Рекомендуется для применений, где важна максимально высокая надёжность.


    RAID 50
  • RAID 50 - объединение двух(или более, но это крайне редко применяется) массивов RAID5 в страйп, т.е. комбинация RAID5 и RAID0, частично исправляющая главный недостаток RAID5 - низкую скорость записи данных за счёт параллельного использования нескольких таких массивов. Общая ёмкость массива уменьшается на ёмкость двух , но, в отличие от RAID6, без потери данных такой массив переносит отказ лишь одного диска, а минимально необходимое число дисков для создания массива RAID50 равно 6. Наряду с RAID10, это наиболее рекомендуемый уровень RAID для использования в приложениях, где требуется высокая производительность в сочетании с приемлемой надёжностью.


    RAID 60
  • RAID 60 - объединение двух массивов RAID6 в страйп. Скорость записи повышается примерно в два раза, относительно скорости записи в RAID6. Минимальное количество дисков для создания такого массива - 8. Информация не теряется при отказе двух дисков из каждого RAID 6 массива.
  • Matrix RAID - технология, реализованная фирмой Intel в своих южных мостах, начиная с ICH6R, позволяющая организовать всего на двух дисках несколько массивов RAID0 и RAID1, одновременно создавая разделы как с повышенной скоростью работы, так и с повышенной надёжностью хранения данных.
  • JBOD (От английского "Just a Bunch Of Disks")- последовательное объединение нескольких физических в один логический, не влияющее на производительность (надёжность при этом падает аналогично RAID0), при этом могут иметь разные размеры. В настоящее время практически не применяется.
  • Проблема повышения надежности хранения информации и одновременного увеличения производительности системы хранения данных занимает умы разработчиков компьютерной периферии уже давно. Относительно повышения надежности хранения все понятно: информация - это товар, и нередко очень ценный. Для защиты от потери данных придумано немало способов, наиболее известный и надежный из которых - это резервное копирование информации.

    Вопрос повышения производительности дисковой подсистемы весьма сложен. Рост вычислительных мощностей современных процессоров привел к тому, что наблюдается явный дисбаланс между возможностями жестких дисков и потребностями процессоров. При этом не спасают ни дорогие SCSI-диски, ни уж тем более IDE-диски. Однако если не хватает возможностей одного диска, то, может быть, отчасти решить данную проблему позволит наличие нескольких дисков? Конечно, само по себе наличие двух или более жестких дисков на компьютере или на сервере дела не меняет - нужно заставить эти диски работать совместно (параллельно) друг с другом так, чтобы это позволило повысить производительность дисковой подсистемы на операциях записи/чтения. Кроме того, нельзя ли, используя несколько жестких дисков, добиться повышения не только производительности, но и надежности хранения данных, чтобы выход из строя одного из дисков не приводил к потере информации? Именно такой подход был предложен еще в 1987 году американскими исследователями Паттерсоном, Гибсоном и Катцом из Калифорнийского университета Беркли. В своей статье «A Case for Redundant Arrays of Inexpensive Discs, RAID» («избыточный массив недорогих дисков») они описали, каким образом можно объединить несколько дешевых жестких дисков в одно логическое устройство так, чтобы в результате повышались емкость и быстродействие системы, а отказ отдельных дисков не приводил к отказу всей системы.

    С момента выхода статьи прошло уже 15 лет, но технология построения RAID-массивов не утратила актуальности и сегодня. Единственное, что изменилось с тех пор, - это расшифровка аббревиатуры RAID. Дело в том, что первоначально RAID-массивы строились вовсе не на дешевых дисках, поэтому слово Inexpensive (недорогие) поменяли на Independent (независимые), что больше соответствовало действительности.

    Более того, именно сейчас технология RAID получила широкое распространение. Так, если еще несколько лет назад RAID-массивы использовались в дорогостоящих серверах масштаба предприятия с применением SCSI-дисков, то сегодня они стали своеобразным стандартом де-факто даже для серверов начального уровня. Кроме того, постепенно расширяется и рынок IDE RAID-контроллеров, то есть актуальность приобретает задача построения RAID-массивов на рабочих станциях с использованием дешевых IDE-дисков. Так, некоторые производители материнских плат (Abit, Gigabyte) уже начали интегрировать IDE RAID-контроллеры на сами платы.

    Итак, RAID - это избыточный массив независимых дисков (Redundant Arrays of Independent Discs), на который возлагается задача обеспечения отказоустойчивости и повышения производительности. Отказоустойчивость достигается за счет избыточности. То есть часть емкости дискового пространства отводится для служебных целей, становясь недоступной для пользователя.

    Повышение производительности дисковой подсистемы обеспечивается одновременной работой нескольких дисков, и в этом смысле чем больше дисков в массиве (до определенного предела), тем лучше.

    Совместную работу дисков в массиве можно организовать с использованием либо параллельного, либо независимого доступа.

    При параллельном доступе дисковое пространство разбивается на блоки (полоски) для записи данных. Аналогично информация, подлежащая записи на диск, разбивается на такие же блоки. При записи отдельные блоки записываются на различные диски (рис. 1), причем запись нескольких блоков на различные диски происходит одновременно, что и приводит к увеличению производительности в операциях записи. Нужная информация также считывается отдельными блоками одновременно с нескольких дисков (рис. 2), что также способствует росту производительности пропорционально количеству дисков в массиве.

    Следует отметить, что модель с параллельным доступом реализуется только при условии, что размер запроса на запись данных больше размера самого блока. В противном случае реализовать параллельную запись нескольких блоков просто невозможно. Представим ситуацию, когда размер отдельного блока составляет 8 Кбайт, а размер запроса на запись данных - 64 Кбайт. В этом случае исходная информация нарезается на восемь блоков по 8 Кбайт каждый. Если имеется массив из четырех дисков, то одновременно можно записать четыре блока, или 32 Кбайт, за один раз. Очевидно, что в рассмотренном примере скорость записи и скорость считывания окажется в четыре раза выше, чем при использовании одного диска. Однако такая ситуация является идеальной, поскольку далеко не всегда размер запроса кратен размеру блока и количеству дисков в массиве.

    Если же размер записываемых данных меньше размера блока, то реализуется принципиально иная модель доступа - независимый доступ. Более того, эта модель может быть реализована и в том случае, когда размер записываемых данных больше размера одного блока. При независимом доступе все данные отдельного запроса записываются на отдельный диск, то есть ситуация идентична работе с одним диском. Преимущество модели с параллельным доступом в том, что при одновременном поступлении нескольких запросов на запись (чтение) все они будут выполняться независимо, на отдельных дисках (рис. 3). Подобная ситуация типична, например, в серверах.

    В соответствии с различными типами доступа существуют и различные типы RAID-массивов, которые принято характеризовать уровнями RAID. Кроме типа доступа, уровни RAID различаются способом размещения и формирования избыточной информации. Избыточная информация может либо размещаться на специально выделенном диске, либо перемешиваться между всеми дисками. Способов формирования этой информации несколько больше. Простейший из них - это полное дублирование (100-процентная избыточность), или зеркалирование. Кроме того, используются коды с коррекцией ошибок, а также вычисление четности.

    Уровни RAID

    В настоящее время существует несколько стандартизированных RAID-уровней: от RAID 0 до RAID 5. К тому же используются комбинации этих уровней, а также фирменные уровни (например, RAID 6, RAID 7). Наиболее распространенными являются уровни 0, 1, 3 и 5.

    RAID 0

    RAID уровня 0, строго говоря, не является избыточным массивом и соответственно не обеспечивает надежности хранения данных. Тем не менее данный уровень находит широкое применение в случаях, когда необходимо обеспечить высокую производительность дисковой подсистемы. Особенно популярен этот уровень в рабочих станциях. При создании RAID-массива уровня 0 информация разбивается на блоки, которые записываются на отдельные диски (рис. 4), то есть создается система с параллельным доступом (если, конечно, размер блока это позволяет). Благодаря возможности одновременного ввода-вывода с нескольких дисков RAID 0 обеспечивает максимальную скорость передачи данных и максимальную эффективность использования дискового пространства, поскольку не требуется места для хранения контрольных сумм. Реализация этого уровня очень проста. В основном RAID 0 применяется в тех областях, где требуется быстрая передача большого объема данных.

    RAID 1 (Mirrored disk)

    RAID уровня 1 - это массив дисков со 100-процентной избыточностью. То есть данные при этом просто полностью дублируются (зеркалируются), за счет чего достигается очень высокий уровень надежности (как, впрочем, и стоимости). Отметим, что для реализации уровня 1 не требуется предварительно разбивать диски и данные на блоки. В простейшем случае два диска содержат одинаковую информацию и являются одним логическим диском (рис. 5). При выходе из строя одного диска его функции выполняет другой (что абсолютно прозрачно для пользователя). Кроме того, этот уровень удваивает скорость считывания информации, так как эта операция может выполняться одновременно с двух дисков. Такая схема хранения информации используется в основном в тех случаях, когда цена безопасности данных намного выше стоимости реализации системы хранения.

    RAID 2

    RAID уровня 2 - это схема резервирования данных с использованием кода Хэмминга (смотри ниже) для коррекции ошибок. Записываемые данные формируются не на основе блочной структуры, как в RAID 0, а на основе слов, причем размер слова равен количеству дисков для записи данных в массиве. Если, к примеру, в массиве имеется четыре диска для записи данных, то размер слова равен четырем дискам. Каждый отдельный бит слова записывается на отдельный диск массива. Например, если массив имеет четыре диска для записи данных, то последовательность четырех бит, то есть слово, запишется на массив дисков таким образом, что первый бит окажется на первом диске, второй бит - на втором и т.д.

    Кроме того, для каждого слова вычисляется код коррекции ошибок (ECC), который записывается на выделенные диски для хранения контрольной информации (рис. 6). Их число равно количеству бит в контрольном слове, причем каждый бит контрольного слова записывается на отдельный диск. Количество бит в контрольном слове и соответственно необходимое количество дисков для хранения контрольной информации рассчитывается на основе следующей формулы: где K - разрядность слова данных.

    Естественно, что L при вычислении по указанной формуле округляется в большую сторону до ближайшего целого числа. Впрочем, чтобы не связываться с формулами, можно воспользоваться другим мнемоническим правилом: разрядность контрольного слова определяется количеством разрядов, необходимым для двоичного представления размера слова. Если, например, размер слова равен четырем (в двоичной записи 100), то, чтобы записать это число в двоичном виде, потребуется три разряда, значит, размер контрольного слова равен трем. Следовательно, если имеется четыре диска для хранения данных, то потребуется еще три диска для хранения контрольных данных. Аналогично при наличии семи дисков для данных (в двоичной записи 111) понадобится три диска для хранения контрольных слов. Если же под данные отводится восемь дисков (в двоичной записи 1000), то нужно уже четыре диска для контрольной информации.

    Код Хэмминга, формирующий контрольное слово, основан на использовании поразрядной операции «исключающего ИЛИ» (XOR) (употребляется также название «неравнозначность»). Напомним, что логическая операция XOR дает единицу при несовпадении операндов (0 и 1) и нуль при их совпадении (0 и 0 или 1 и 1).

    Само контрольное слово, полученное по алгоритму Хэмминга, - это инверсия результата поразрядной операции исключающего ИЛИ номеров тех информационных разрядов слова, значения которых равны 1. Для иллюстрации рассмотрим исходное слово 1101. В первом (001), третьем (011) и четвертом (100) разрядах этого слова стоит единица. Поэтому необходимо провести поразрядную операцию исключающего ИЛИ для этих номеров разрядов:

    Само же контрольное слово (код Хэмминга) получается при поразрядном инвертировании полученного результата, то есть равно 001.

    При считывании данных вновь рассчитывается код Хэмминга и сравнивается с исходным кодом. Для сравнения двух кодов используется поразрядная операция «исключающего ИЛИ». Если результат сравнения во всех разрядах равен нулю, то считывание верное, в противном случае его значение есть номер ошибочно принятого разряда основного кода. Пусть, к примеру, исходное слово равно 1100000. Поскольку единицы стоят в шестой (110) и седьмой (111) позициях, контрольное слово равно:

    Если при считывании зафиксировано слово 1100100, то контрольное слово для него равно 101. Сравнивая исходное контрольное слово с полученным (поразрядная операция исключающего ИЛИ), имеем:

    то есть ошибка при считывании в третьей позиции.

    Соответственно, зная, какой именно бит является ошибочным, его легко исправить «на лету».

    RAID 2 - один из немногих уровней, позволяющих не только исправлять «на лету» одиночные ошибки, но и обнаруживать двойные. При этом он является самым избыточным из всех уровней с кодами коррекции. Эта схема хранения данных применяется редко, поскольку плохо справляется с большим количеством запросов, сложна в организации и обладает незначительными преимуществами перед уровнем RAID 3.

    RAID 3

    RAID уровня 3 - это отказоустойчивый массив с параллельным вводом-выводом и одним дополнительным диском, на который записывается контрольная информация (рис. 7). При записи поток данных разбивается на блоки на уровне байт (хотя возможно и на уровне бит) и записывается одновременно на все диски массива, кроме выделенного для хранения контрольной информации. Для вычисления контрольной информации (называемой также контрольной суммой) используется операция «исключающего ИЛИ» (XOR), применяемая к записываемым блокам данных. При выходе из строя любого диска данные на нем можно восстановить по контрольным данным и данным, оставшимся на исправных дисках.

    Рассмотрим в качестве иллюстрации блоки размером по четыре бита. Пусть имеются четыре диска для хранения данных и один диск для записи контрольных сумм. Если имеется последовательность бит 1101 0011 1100 1011, разбитая на блоки по четыре бита, то для расчета контрольной суммы необходимо выполнить операцию:

    Таким образом, контрольная сумма, записываемая на пятый диск, равна 1001.

    Если один из дисков, например третий, вышел из строя, то блок 1100 окажется недоступным при считывании. Однако его значение легко восстановить по контрольной сумме и значениям остальных блоков, используя все ту же операцию «исключающего ИЛИ»:

    Блок 3=Блок 1Блок 2Блок 4

    Контрольная сумма.

    В нашем примере получим:

    Блок 3=1101001110111001= 1100.

    RAID уровня 3 имеет намного меньшую избыточность, чем RAID 2. Благодаря разбиению данных на блоки RAID 3 имеет высокую производительность. При считывании информации не производится обращение к диску с контрольными суммами (в случае отсутствия сбоя), что происходит всякий раз при операции записи. Поскольку при каждой операции ввода-вывода производится обращение практически ко всем дискам массива, одновременная обработка нескольких запросов невозможна. Данный уровень подходит для приложений с файлами большого объема и малой частотой обращений. Кроме того, к достоинствам RAID 3 относятся незначительное снижение производительности при сбое и быстрое восстановление информации.

    RAID 4

    RAID уровня 4 - это отказоустойчивый массив независимых дисков с одним диском для хранения контрольных сумм (рис. 8). RAID 4 во многом схож с RAID 3, но отличается от последнего прежде всего значительно большим размером блока записываемых данных (большим, чем размер записываемых данных). В этом и есть главное различие между RAID 3 и RAID 4. После записи группы блоков вычисляется контрольная сумма (точно так же, как и в случае RAID 3), которая записывается на выделенный для этого диск. Благодаря большему, чем у RAID 3, размеру блока возможно одновременное выполнение нескольких операций чтения (схема независимого доступа).

    RAID 4 повышает производительность передачи файлов малого объема (за счет распараллеливания операции считывания). Но поскольку при записи должна вычисляться контрольная сумма на выделенном диске, одновременное выполнение операций здесь невозможно (налицо асимметричность операций ввода и вывода). Рассматриваемый уровень не обеспечивает преимущества в скорости при передаче данных большого объема. Эта схема хранения разрабатывалась для приложений, в которых данные изначально разбиты на небольшие блоки, поэтому нет необходимости дополнительно их разбивать. RAID 4 представляет собой неплохое решение для файл-серверов, информация с которых преимущественно считывается и редко записывается. Эта схема хранения данных имеет невысокую стоимость, но ее реализация достаточно сложна, как и восстановление данных при сбое.

    RAID 5

    RAID уровня 5 - это отказоустойчивый массив независимых дисков с распределенным хранением контрольных сумм (рис. 9). Блоки данных и контрольные суммы, которые рассчитываются точно так же, как и в RAID 3, циклически записываются на все диски массива, то есть отсутствует выделенный диск для хранения информации о контрольных суммах.

    В случае RAID 5 все диски массива имеют одинаковый размер, однако общая емкость дисковой подсистемы, доступной для записи, становится меньше ровно на один диск. Например, если пять дисков имеют размер 10 Гбайт, то фактический размер массива составляет 40 Гбайт, так как 10 Гбайт отводится на контрольную информацию.

    RAID 5, так же как и RAID 4, имеет архитектуру независимого доступа, то есть в отличие от RAID 3 здесь предусмотрен большой размер логических блоков для хранения информации. Поэтому, как и в случае с RAID 4, основной выигрыш такой массив обеспечивает при одновременной обработке нескольких запросов.

    Главным же различием между RAID 5 и RAID 4 является способ размещения контрольных сумм.

    Наличие отдельного (физического) диска, хранящего информацию о контрольных суммах, здесь, как и в трех предыдущих уровнях, приводит к тому, что операции считывания, не требующие обращения к этому диску, выполняются с большой скоростью. Однако при каждой операции записи меняется информация на контрольном диске, поэтому схемы RAID 2, RAID 3 и RAID 4 не позволяют проводить параллельные операции записи. RAID 5 лишен этого недостатка, поскольку контрольные суммы записываются на все диски массива, что обеспечивает возможность выполнения нескольких операций считывания или записи одновременно.

    Практическая реализация

    Для практической реализации RAID-массивов необходимы две составляющие: собственно массив жестких дисков и RAID-контроллер. Контроллер выполняет функции связи с сервером (рабочей станцией), генерации избыточной информации при записи и проверки при чтении, распределения информации по дискам в соответствии с алгоритмом функционирования.

    Конструктивно контроллеры бывают как внешние, так и внутренние. Имеются также интегрированные на материнской плате RAID-контроллеры. Кроме того, контроллеры различаются поддерживаемым интерфейсом дисков. Так, SCSI RAID-контроллеры предназначены для использования в серверах, а IDE RAID-контроллеры подходят как для серверов начального уровня, так и для рабочих станций.

    Отличительной характеристикой RAID-контроллеров является количество поддерживаемых каналов для подключения жестких дисков. Несмотря на то что к одному каналу контроллера можно подключить несколько SCSI-дисков, общая пропускная способность RAID-массива будет ограничена пропускной способностью одного канала, которая соответствует пропускной способности SCSI-интерфейса. Таким образом, использование нескольких каналов может существенно повысить производительность дисковой подсистемы.

    При использовании IDE RAID-контроллеров проблема многоканальности встает еще острее, поскольку два жестких диска, подключенных к одному каналу (большее количество дисков не поддерживается самим интерфейсом), не могут обеспечить параллельную работу - IDE-интерфейс позволяет обращаться в определенный момент времени только к одному диску. Поэтому IDE RAID-контроллеры должны быть как минимум двухканальными. Бывают также четырех- и даже восьмиканальные контроллеры.

    Другим различием между IDE RAID- и SCSI RAID-контроллерами является количество поддерживаемых ими уровней. SCSI RAID-контроллеры поддерживают все основные уровни и, как правило, еще несколько комбинированных и фирменных уровней. Набор уровней, поддерживаемых IDE RAID-контроллерами, значительно скромнее. Обычно это нулевой и первый уровни. Кроме того, встречаются контроллеры, поддерживающие пятый уровень и комбинацию первого и нулевого: 0+1. Такой подход вполне закономерен, поскольку IDE RAID-контроллеры предназначены в первую очередь для рабочих станций, поэтому основной упор делается на повышение сохранности данных (уровень 1) или производительности при параллельном вводе-выводе (уровень 0). Схема независимых дисков в данном случае не нужна, так как в рабочих станциях поток запросов на запись/чтение значительно ниже, чем, скажем, в серверах.

    Основной функцией RAID-массива является не увеличение емкости дисковой подсистемы (как видно из его устройства, такую же емкость можно получить и за меньшие деньги), а обеспечение надежности сохранности данных и повышение производительности. Для серверов, кроме того, выдвигается требование бесперебойности в работе, даже в случае отказа одного из накопителей. Бесперебойность в работе обеспечивается при помощи горячей замены, то есть извлечения неисправного SCSI-диска и установки нового без выключения питания. Поскольку при одном неисправном накопителе дисковая подсистема продолжает работать (кроме уровня 0), горячая замена обеспечивает восстановление, прозрачное для пользователей. Однако скорость передачи и скорость доступа при одном неработающем диске заметно снижается из-за того, что контроллер должен восстанавливать данные из избыточной информации. Правда, из этого правила есть исключение - RAID-системы уровней 2, 3, 4 при выходе из строя накопителя с избыточной информацией начинают работать быстрее! Это закономерно, поскольку в таком случае уровень «на лету» меняется на нулевой, который обладает великолепными скоростными характеристиками.

    До сих пор речь в этой статье шла об аппаратных решениях. Но существует и программное, предложенное, например, фирмой Microsoft для Windows 2000 Server. Однако в этом случае некоторая начальная экономия полностью нейтрализуется добавочной нагрузкой на центральный процессор, который помимо основной своей работы вынужден распределять данные по дискам и производить расчет контрольных сумм. Такое решение может считаться приемлемым только в случае значительного избытка вычислительной мощности и малой загрузки сервера.


    Сергей Пахомов

    КомпьютерПресс 3"2002

    Есть вопросы?

    Сообщить об опечатке

    Текст, который будет отправлен нашим редакторам: