Страница 1 из 3
Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 11:06:29
rambomax
Уважаемые господа!
Я установил новый сервер, собранный на FreeBSD 7.2 x64 с двумя жёсткими дисками WD, объединёнными в RAID-1 (зеркало) с помощью gmirror. В "боевом" режиме он проработал два часа, потом gmirror убил второй диск так, что система не может даже загружаться при подключенном диске. Пришлось срочно установить запасной сервер как временный вариант.
"Дохляк" лежит у меня сейчас на столе. Я легко могу восстановить RAID и воткнуть его в стойку на место, но боюсь, что это будет опять на два часа - надо что-то менять для надёжности.
Что, по вашему компетентному мнению, из нижеперечисленного явилось причиной такого серьёзного сбоя?
FreeBSD 7.2 (слишком молодая, нестабильная?)
x64 (рано ещё начинать использовать?)
gmirror (софтовый глюкодром?)
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 11:22:23
Dron
откуда вывод что gmirror убил второй винт?

Что значит дохляк? Как ведет себя винт? Что значит убил?
Что за модель винта?
А вообще очень похоже на проблему с самим винтом - заводской брак? Слишком-уж мало он проработал
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 12:53:42
rambomax
Большое спасибо за интерес к проблеме!
"Убил" это значит таким образом повредил данные на нём, что никакой FSCK уже помочь не может.
Засада заключается в том, что мой случай показывает, что один винт с запоротой файловой системой приводит к тому, что система перестаёт загружаться и требует вынимать железку из стойки чтобы разбираться с ней (у меня в стойке нет клавиатуры и монитора).
Получается, что если происходит сбой, то, несмотря на RAID, система сама не поднимется и удалённо её починить нельзя.
В моём случае железо 100% рабочее - проверено уже многими тестами. Сбой чисто программный - gmirror привёл к разрушению структуры данных на одном из винтов, после чего RAID оказался полностью неработоспособным и система не могла загрузиться - не могла смонтировать корневую файловую систему. После физического отключения сбойного винта, и FSCK система отлично поднялась и работает. Если теперь сделать удаление сбойного диска из массива и снова его подключить всё будет отлично. Но я теперь уже уверен, что такая система ненадёжна.
Склоняюсь к тому, что всему виной х64, попробую выдернуть "лишнюю" память и поставить 32-битную систему...
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 13:01:39
Alex Keda
зеркало-то собралось до ввода в боевой режим?
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 13:09:27
Dron
Проблем такого плана с gmirror не замечено ни на i386 ни на amd64...
Действительно, а raid перешел в comlplete или выключали при dirty?
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 13:10:08
rambomax
До ввода в "боевой" режим тестировал всю железку пару месяцев. Думал, попробовал уже все варианты.
Только поставил - два часа и каюк...
Это моя первая 64-битка. До этого никогда таких проблем не имел. Да, во фре часто при различных катаклизмах разрушается файловая система. Особенно обидно, когда это происходит в двух сотнях км. от места дислокации. Тут было под боком, вроде казалось не страшно. Думал RAID штука надёжная. Вылетела она когда MySQL что-то делал с базой. Система упала в "кору". А ребутнуться не смогла - оказалась разрушена корневая файловая система на одном диске в массиве. Получается, когда на втором диске есть нормальные данные, система в софтовом RAID-е их читать не может.
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 13:14:55
rambomax
Dron писал(а):
Действительно, а raid перешел в comlplete или выключали при dirty?
Может ли быть проблема в "слишком новом" железе? - под этот сервак всё покупали "самое новое". Винты САТА 500Гб. Может быть у gmirror при таких объёмах какие-то переполнения чего-нибудь возможны?
7.2 ставил только потому, что гигабитная сетевуха на матери ASUS P5B-VM поддерживается только в 7.2 ядре.
Все "мегаспециалисты" 7.2 почему-то не хвалят, хотя, как я думаю, если команда FreeBSD рекомендовала её к промышленному использованию, что там может быть плохого?
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 15:20:50
Alex Keda
сдаётся мне что не во фре всё же дело...
понять бы что там у вас.
из вашего сумбурного описания ничё не ясно =(
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 16:13:50
rambomax
В системе два жёстких диска - ad0 и ad2 объединены в RAID-1 gm0
В результате неизвестно чего получился сбой файловой системы на диске ad0 и ядро "упало" в кору
Перезагрузиться система не смогла и умерла.
Вскрытие показало, что gmirror всегда реально работает с одного диска, а на второй в фоновом режиме пишет.
В данном случае "первый" с разрушенными файловыми системами был ad0 и несмотря на нормальный ad2 система ни в какую не грузится - пришлось вынимать железку из стойки. Если как в экспериментах вообще отключить диск, имитируя такую его неисправность, как внезапную аннигиляция, то система грузится со второго диска. Пропадание и любые ошибки на втором диске не играют роли - получается, что он всегда "подчинённый", т.е. пишут на него и его ошибки, таким образом, нивелируются исправным первым диском.
Я переткнул шлейфы и винты поменялись местами - система загрузилась и сейчас занимается синхронизацией массива (я обнулил "битый" диск и по-новой включил его в массив)
Получается, что gmirror совершенно не спасает от сбоя файловой системы и целесообразность его использования на "боевой" системе, таким образом, сейчас вызывает у меня большие сомнения.
В соседней ветке этого форума описывается, как аналогичный программный сбой привёл к потере данных на втором, совершенно рабочем зеркале.
Когда я создавал ветку я думал, что проблемы с gmirror только у меня и пытался понять, что могло их вызвать. Изучая интернет, вижу, что аналогичные проблемы есть у всех.
Возникает философский вопрос: а нужен ли, в таком случае, этот gmirror? - аннигиляция жёстких дисков случается редко, а вот сбои файловой системы часто. gmirror помогает только от аннигиляции. Получается я добавляю в сервер дополнительный компонент, который понижает общую надёжность системы.
Стоит ли использовать софтовое зеркалирование на "боевом" сервере?
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 16:37:18
ev
а в чем проблема удаленно в биосе поставить загрузку со второго винта, восстановить первый и еще раз ребутнуться?
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 16:45:12
Alex Keda
помоему вы не очень понимаете о чём рассуждаете.
========
если на диск записалась сбойнай информация, записалась по воле ОС (dd if=/dev/zero of=/dev/mirror/gm0 - утрирую) - то с этим ничего не сделаешь.
и не поможет ни хардверное ни софтверное - никакое зеркало. ибо инфа будет записана на все диски зеркала.
от сбоя файловой системы защищает бэкап, резервный сервер, и только.
зеркало - защищает от сбоя диска на физическом уровне.
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 16:48:36
Alex Keda
P.S.
gmirror юзаю года три.
за это время спас от вылета дисков - дважды
файловая система ломалась один раз (так чтоб fsck ниасилил).
осилил tar, newfs, ещё раз tar и всё.
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 16:50:19
zingel
логи давайте
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 23:30:27
Fastman
lissyara писал(а):P.S.
gmirror юзаю года три.
за это время спас от вылета дисков - дважды
файловая система ломалась один раз (так чтоб fsck ниасилил).
осилил tar, newfs, ещё раз tar и всё.
Надо будет по возможности тебе триварь нормальный подбросить....
Ибо нехрен.

Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-26 23:51:05
Alex Keda
у меня на балконе лежит 1U супермикро, два двуядрёных оптерона 2xx, 8 планок по гигу, три 147 диска и мегарейд под них.
осталось радиаторы подобрать и готово

))
даже IPMI случайно получилось - зказал на ебай питальник - прислали это

)
=======
под lissyara.su новая машинка
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 7:35:43
rambomax
ev писал(а):а в чем проблема удаленно в биосе поставить загрузку со второго винта, восстановить первый и еще раз ребутнуться?
Удалённо производить подобные манипуляции проблема ОЧЕНЬ большая - необходимо специальное, МЕГАДОРОГОЕ устройство под названием КВМ, да ещё с МЕГАДОРОГИМ модулем удалённого доступа.
Долго думал над проблемой зеркал.
Вы абсолютно правы, что если ОС хочет убить данные, никакой RAID ей в этом не помешает. Интересно всёже, а могут ли теоретически быть RAID с контролем целостности файловой системы...
У меня разразился мировой финансовый кризис и я сейчас в глубоких размышлениях о судьбах родины: использовать второй диск в физически другом backup-сервере или поставить его ненадёжным дублёром в софтовый RAID.
backup-сервер делать всё равно надо.
Ключевой вопрос - уменьшает или увеличивает gmirror геморрой?
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 8:38:10
ev
МЕГАДОРОГОЕ устройство под названием КВМ, да ещё с МЕГАДОРОГИМ модулем удалённого доступа.
не очень дорогое... 16 портов стоит менее 50 тыс рублей
Интересно всёже, а могут ли теоретически быть RAID с контролем целостности файловой системы...
рейд работает на другом уровне
контроль целостности достигается другими средствами
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 9:10:13
rambomax
ev писал(а):
не очень дорогое... 16 портов стоит менее 50 тыс рублей
Пожалуйста извините, но мне больно читать такие посты - нефтяные брызги из Москвы до нашей российской глубинки не долетают.
У нас малюсенькая компания. Все "сервера" в нашей компании суммарно стоят меньше... Установка бесплатной операционки в конторе, которая может позволить себе заплатить 50 тыр за КВМ выглядит... неразумной по крайней мере.
Огромное спасибо всем отписавшимся в данной теме!
Выводы: программный RAID усложняет систему и создаёт в ней дополнительные точки отказа. Также создаёт иллюзию большей надёжности хранимых на нём данных. Никакие RAID-ы никогда не заменяют традиционного бакапа. При наличии хорошо поставленного традиционного бакапа удорожание серверов в маленьких конторах за счёт программного RAID экономически нецелесообразно.
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 9:27:01
Fastman
rambomax писал(а):ev писал(а):
не очень дорогое... 16 портов стоит менее 50 тыс рублей
Пожалуйста извините, но мне больно читать такие посты - нефтяные брызги из Москвы до нашей российской глубинки не долетают.
У нас малюсенькая компания. Все "сервера" в нашей компании суммарно стоят меньше... Установка бесплатной операционки в конторе, которая может позволить себе заплатить 50 тыр за КВМ выглядит... неразумной по крайней мере.
Огромное спасибо всем отписавшимся в данной теме!
Выводы: программный RAID усложняет систему и создаёт в ней дополнительные точки отказа. Также создаёт иллюзию большей надёжности хранимых на нём данных. Никакие RAID-ы никогда не заменяют традиционного бакапа. При наличии хорошо поставленного традиционного бакапа удорожание серверов в маленьких конторах за счёт программного RAID экономически нецелесообразно.
Это неверный вывод.
RAID != бэкап. RAID стоит в цепочке локализации точек отказа совсем в другом звене, и предназначен для создания избыточности информации в мгновенный/краткий период времени. А так же для увеличения производительности дисковой системы(IOPS/Линейные операции/Паралелльный доступ). Никогда и никакой RAID не заменит бэкапа.
По поводу софтового решения зеркалирования дисков. Если вы решите купить контроллер за деньги 300-400 долларов, то вы потратите их зря, и по надежности это решение будет ровненько с софтовым рейдом, а чаще - и того хуже. Конечно, для того чтобы обеспечить отказоустойчивость программными средствами - необходимы умение и понимание того что вы делаете.
И не нужно нам тут про нефтяные брызги рассказывать.
Вы будете копать лопатой и говорить что экскаватор хуже потому что им нужно уметь управлять а еще он может перевернуться и придавить вас ?
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 9:59:38
ev
Вы будете копать лопатой и говорить что экскаватор хуже потому что им нужно уметь управлять а еще он может перевернуться и придавить вас ?
+1
остается только посочувствовать, что время человека (в данной организации) ценится дешевле покупки КВМ
такова судьба
дешевый КВМ можно собрать и своими силами
контроллер Atmel + Realtek и небольшая обвязка (общая стоимость всего комплекта не превысит 2 тыс. рублей) = КВМ для rs232
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 10:36:49
Alex Keda
Fastman писал(а):По поводу софтового решения зеркалирования дисков. Если вы решите купить контроллер за деньги 300-400 долларов, то вы потратите их зря, и по надежности это решение будет ровненько с софтовым рейдом, а чаще - и того хуже.
э... триварь или арека стока стоит...
это плохие контроллеры? или ты про сказю/сас говорил?
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 10:50:51
Fastman
lissyara писал(а):Fastman писал(а):По поводу софтового решения зеркалирования дисков. Если вы решите купить контроллер за деньги 300-400 долларов, то вы потратите их зря, и по надежности это решение будет ровненько с софтовым рейдом, а чаще - и того хуже.
э... триварь или арека стока стоит...
это плохие контроллеры? или ты про сказю/сас говорил?
Я про SAS... про промышленное SATA можно забывать к сожалению.
Cофто-базо писатели вконец охренели и стали плодить монстров которые прилично ворочаются толко на SAS.
Просто по моим наблюдениям выходит что софтовое win/lin/bsd зеркало намного вменяемей чем зеркало например на интеловском ICH
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 11:06:19
Alex Keda
винда вроде не умеет нормальные зеркала - которые могут бутиться при отвале основного диска...
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 12:56:22
Fastman
lissyara писал(а):винда вроде не умеет нормальные зеркала - которые могут бутиться при отвале основного диска...
Умеет.
Re: Умер софтовый RAID-1 на gmirror
Добавлено: 2009-05-27 13:22:09
Alex Keda
пошёл хелп читать...