Умер софтовый RAID-1 на gmirror
Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
-
- ефрейтор
- Сообщения: 51
- Зарегистрирован: 2007-12-06 13:57:20
Умер софтовый RAID-1 на gmirror
Уважаемые господа!
Я установил новый сервер, собранный на FreeBSD 7.2 x64 с двумя жёсткими дисками WD, объединёнными в RAID-1 (зеркало) с помощью gmirror. В "боевом" режиме он проработал два часа, потом gmirror убил второй диск так, что система не может даже загружаться при подключенном диске. Пришлось срочно установить запасной сервер как временный вариант.
"Дохляк" лежит у меня сейчас на столе. Я легко могу восстановить RAID и воткнуть его в стойку на место, но боюсь, что это будет опять на два часа - надо что-то менять для надёжности.
Что, по вашему компетентному мнению, из нижеперечисленного явилось причиной такого серьёзного сбоя?
FreeBSD 7.2 (слишком молодая, нестабильная?)
x64 (рано ещё начинать использовать?)
gmirror (софтовый глюкодром?)
Я установил новый сервер, собранный на FreeBSD 7.2 x64 с двумя жёсткими дисками WD, объединёнными в RAID-1 (зеркало) с помощью gmirror. В "боевом" режиме он проработал два часа, потом gmirror убил второй диск так, что система не может даже загружаться при подключенном диске. Пришлось срочно установить запасной сервер как временный вариант.
"Дохляк" лежит у меня сейчас на столе. Я легко могу восстановить RAID и воткнуть его в стойку на место, но боюсь, что это будет опять на два часа - надо что-то менять для надёжности.
Что, по вашему компетентному мнению, из нижеперечисленного явилось причиной такого серьёзного сбоя?
FreeBSD 7.2 (слишком молодая, нестабильная?)
x64 (рано ещё начинать использовать?)
gmirror (софтовый глюкодром?)
Услуги хостинговой компании Host-Food.ru
Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/
- Dron
- ст. сержант
- Сообщения: 373
- Зарегистрирован: 2007-08-15 13:36:28
- Откуда: Днепропетровск
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
откуда вывод что gmirror убил второй винт? 
Что значит дохляк? Как ведет себя винт? Что значит убил?
Что за модель винта?
А вообще очень похоже на проблему с самим винтом - заводской брак? Слишком-уж мало он проработал

Что значит дохляк? Как ведет себя винт? Что значит убил?
Что за модель винта?
А вообще очень похоже на проблему с самим винтом - заводской брак? Слишком-уж мало он проработал
Та Да...
-
- ефрейтор
- Сообщения: 51
- Зарегистрирован: 2007-12-06 13:57:20
Re: Умер софтовый RAID-1 на gmirror
Большое спасибо за интерес к проблеме!
"Убил" это значит таким образом повредил данные на нём, что никакой FSCK уже помочь не может.
Засада заключается в том, что мой случай показывает, что один винт с запоротой файловой системой приводит к тому, что система перестаёт загружаться и требует вынимать железку из стойки чтобы разбираться с ней (у меня в стойке нет клавиатуры и монитора).
Получается, что если происходит сбой, то, несмотря на RAID, система сама не поднимется и удалённо её починить нельзя.
В моём случае железо 100% рабочее - проверено уже многими тестами. Сбой чисто программный - gmirror привёл к разрушению структуры данных на одном из винтов, после чего RAID оказался полностью неработоспособным и система не могла загрузиться - не могла смонтировать корневую файловую систему. После физического отключения сбойного винта, и FSCK система отлично поднялась и работает. Если теперь сделать удаление сбойного диска из массива и снова его подключить всё будет отлично. Но я теперь уже уверен, что такая система ненадёжна.
Склоняюсь к тому, что всему виной х64, попробую выдернуть "лишнюю" память и поставить 32-битную систему...
"Убил" это значит таким образом повредил данные на нём, что никакой FSCK уже помочь не может.
Засада заключается в том, что мой случай показывает, что один винт с запоротой файловой системой приводит к тому, что система перестаёт загружаться и требует вынимать железку из стойки чтобы разбираться с ней (у меня в стойке нет клавиатуры и монитора).
Получается, что если происходит сбой, то, несмотря на RAID, система сама не поднимется и удалённо её починить нельзя.
В моём случае железо 100% рабочее - проверено уже многими тестами. Сбой чисто программный - gmirror привёл к разрушению структуры данных на одном из винтов, после чего RAID оказался полностью неработоспособным и система не могла загрузиться - не могла смонтировать корневую файловую систему. После физического отключения сбойного винта, и FSCK система отлично поднялась и работает. Если теперь сделать удаление сбойного диска из массива и снова его подключить всё будет отлично. Но я теперь уже уверен, что такая система ненадёжна.
Склоняюсь к тому, что всему виной х64, попробую выдернуть "лишнюю" память и поставить 32-битную систему...
- Alex Keda
- стреляли...
- Сообщения: 35437
- Зарегистрирован: 2004-10-18 14:25:19
- Откуда: Made in USSR
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
зеркало-то собралось до ввода в боевой режим?
Убей их всех! Бог потом рассортирует...
- Dron
- ст. сержант
- Сообщения: 373
- Зарегистрирован: 2007-08-15 13:36:28
- Откуда: Днепропетровск
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
Проблем такого плана с gmirror не замечено ни на i386 ни на amd64...
Действительно, а raid перешел в comlplete или выключали при dirty?
Действительно, а raid перешел в comlplete или выключали при dirty?
Та Да...
-
- ефрейтор
- Сообщения: 51
- Зарегистрирован: 2007-12-06 13:57:20
Re: Умер софтовый RAID-1 на gmirror
До ввода в "боевой" режим тестировал всю железку пару месяцев. Думал, попробовал уже все варианты.
Только поставил - два часа и каюк...
Это моя первая 64-битка. До этого никогда таких проблем не имел. Да, во фре часто при различных катаклизмах разрушается файловая система. Особенно обидно, когда это происходит в двух сотнях км. от места дислокации. Тут было под боком, вроде казалось не страшно. Думал RAID штука надёжная. Вылетела она когда MySQL что-то делал с базой. Система упала в "кору". А ребутнуться не смогла - оказалась разрушена корневая файловая система на одном диске в массиве. Получается, когда на втором диске есть нормальные данные, система в софтовом RAID-е их читать не может.
Только поставил - два часа и каюк...
Это моя первая 64-битка. До этого никогда таких проблем не имел. Да, во фре часто при различных катаклизмах разрушается файловая система. Особенно обидно, когда это происходит в двух сотнях км. от места дислокации. Тут было под боком, вроде казалось не страшно. Думал RAID штука надёжная. Вылетела она когда MySQL что-то делал с базой. Система упала в "кору". А ребутнуться не смогла - оказалась разрушена корневая файловая система на одном диске в массиве. Получается, когда на втором диске есть нормальные данные, система в софтовом RAID-е их читать не может.
-
- ефрейтор
- Сообщения: 51
- Зарегистрирован: 2007-12-06 13:57:20
Re: Умер софтовый RAID-1 на gmirror
Может ли быть проблема в "слишком новом" железе? - под этот сервак всё покупали "самое новое". Винты САТА 500Гб. Может быть у gmirror при таких объёмах какие-то переполнения чего-нибудь возможны?Dron писал(а): Действительно, а raid перешел в comlplete или выключали при dirty?
7.2 ставил только потому, что гигабитная сетевуха на матери ASUS P5B-VM поддерживается только в 7.2 ядре.
Все "мегаспециалисты" 7.2 почему-то не хвалят, хотя, как я думаю, если команда FreeBSD рекомендовала её к промышленному использованию, что там может быть плохого?
- Alex Keda
- стреляли...
- Сообщения: 35437
- Зарегистрирован: 2004-10-18 14:25:19
- Откуда: Made in USSR
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
сдаётся мне что не во фре всё же дело...
понять бы что там у вас.
из вашего сумбурного описания ничё не ясно =(
понять бы что там у вас.
из вашего сумбурного описания ничё не ясно =(
Убей их всех! Бог потом рассортирует...
-
- ефрейтор
- Сообщения: 51
- Зарегистрирован: 2007-12-06 13:57:20
Re: Умер софтовый RAID-1 на gmirror
В системе два жёстких диска - ad0 и ad2 объединены в RAID-1 gm0
В результате неизвестно чего получился сбой файловой системы на диске ad0 и ядро "упало" в кору
Перезагрузиться система не смогла и умерла.
Вскрытие показало, что gmirror всегда реально работает с одного диска, а на второй в фоновом режиме пишет.
В данном случае "первый" с разрушенными файловыми системами был ad0 и несмотря на нормальный ad2 система ни в какую не грузится - пришлось вынимать железку из стойки. Если как в экспериментах вообще отключить диск, имитируя такую его неисправность, как внезапную аннигиляция, то система грузится со второго диска. Пропадание и любые ошибки на втором диске не играют роли - получается, что он всегда "подчинённый", т.е. пишут на него и его ошибки, таким образом, нивелируются исправным первым диском.
Я переткнул шлейфы и винты поменялись местами - система загрузилась и сейчас занимается синхронизацией массива (я обнулил "битый" диск и по-новой включил его в массив)
Получается, что gmirror совершенно не спасает от сбоя файловой системы и целесообразность его использования на "боевой" системе, таким образом, сейчас вызывает у меня большие сомнения.
В соседней ветке этого форума описывается, как аналогичный программный сбой привёл к потере данных на втором, совершенно рабочем зеркале.
Когда я создавал ветку я думал, что проблемы с gmirror только у меня и пытался понять, что могло их вызвать. Изучая интернет, вижу, что аналогичные проблемы есть у всех.
Возникает философский вопрос: а нужен ли, в таком случае, этот gmirror? - аннигиляция жёстких дисков случается редко, а вот сбои файловой системы часто. gmirror помогает только от аннигиляции. Получается я добавляю в сервер дополнительный компонент, который понижает общую надёжность системы.
Стоит ли использовать софтовое зеркалирование на "боевом" сервере?
В результате неизвестно чего получился сбой файловой системы на диске ad0 и ядро "упало" в кору
Перезагрузиться система не смогла и умерла.
Вскрытие показало, что gmirror всегда реально работает с одного диска, а на второй в фоновом режиме пишет.
В данном случае "первый" с разрушенными файловыми системами был ad0 и несмотря на нормальный ad2 система ни в какую не грузится - пришлось вынимать железку из стойки. Если как в экспериментах вообще отключить диск, имитируя такую его неисправность, как внезапную аннигиляция, то система грузится со второго диска. Пропадание и любые ошибки на втором диске не играют роли - получается, что он всегда "подчинённый", т.е. пишут на него и его ошибки, таким образом, нивелируются исправным первым диском.
Я переткнул шлейфы и винты поменялись местами - система загрузилась и сейчас занимается синхронизацией массива (я обнулил "битый" диск и по-новой включил его в массив)
Получается, что gmirror совершенно не спасает от сбоя файловой системы и целесообразность его использования на "боевой" системе, таким образом, сейчас вызывает у меня большие сомнения.
В соседней ветке этого форума описывается, как аналогичный программный сбой привёл к потере данных на втором, совершенно рабочем зеркале.
Когда я создавал ветку я думал, что проблемы с gmirror только у меня и пытался понять, что могло их вызвать. Изучая интернет, вижу, что аналогичные проблемы есть у всех.
Возникает философский вопрос: а нужен ли, в таком случае, этот gmirror? - аннигиляция жёстких дисков случается редко, а вот сбои файловой системы часто. gmirror помогает только от аннигиляции. Получается я добавляю в сервер дополнительный компонент, который понижает общую надёжность системы.
Стоит ли использовать софтовое зеркалирование на "боевом" сервере?
-
- ст. лейтенант
- Сообщения: 1325
- Зарегистрирован: 2008-07-27 17:11:30
- Откуда: Москва
Re: Умер софтовый RAID-1 на gmirror
а в чем проблема удаленно в биосе поставить загрузку со второго винта, восстановить первый и еще раз ребутнуться?
- Alex Keda
- стреляли...
- Сообщения: 35437
- Зарегистрирован: 2004-10-18 14:25:19
- Откуда: Made in USSR
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
помоему вы не очень понимаете о чём рассуждаете.
========
если на диск записалась сбойнай информация, записалась по воле ОС (dd if=/dev/zero of=/dev/mirror/gm0 - утрирую) - то с этим ничего не сделаешь.
и не поможет ни хардверное ни софтверное - никакое зеркало. ибо инфа будет записана на все диски зеркала.
от сбоя файловой системы защищает бэкап, резервный сервер, и только.
зеркало - защищает от сбоя диска на физическом уровне.
========
если на диск записалась сбойнай информация, записалась по воле ОС (dd if=/dev/zero of=/dev/mirror/gm0 - утрирую) - то с этим ничего не сделаешь.
и не поможет ни хардверное ни софтверное - никакое зеркало. ибо инфа будет записана на все диски зеркала.
от сбоя файловой системы защищает бэкап, резервный сервер, и только.
зеркало - защищает от сбоя диска на физическом уровне.
Убей их всех! Бог потом рассортирует...
- Alex Keda
- стреляли...
- Сообщения: 35437
- Зарегистрирован: 2004-10-18 14:25:19
- Откуда: Made in USSR
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
P.S.
gmirror юзаю года три.
за это время спас от вылета дисков - дважды
файловая система ломалась один раз (так чтоб fsck ниасилил).
осилил tar, newfs, ещё раз tar и всё.
gmirror юзаю года три.
за это время спас от вылета дисков - дважды
файловая система ломалась один раз (так чтоб fsck ниасилил).
осилил tar, newfs, ещё раз tar и всё.
Убей их всех! Бог потом рассортирует...
- zingel
- beastie
- Сообщения: 6204
- Зарегистрирован: 2007-10-30 3:56:49
- Откуда: Moscow
- Контактная информация:
- Fastman
- ст. лейтенант
- Сообщения: 1236
- Зарегистрирован: 2006-07-07 10:20:38
- Откуда: Минск. РБ
Re: Умер софтовый RAID-1 на gmirror
Надо будет по возможности тебе триварь нормальный подбросить....lissyara писал(а):P.S.
gmirror юзаю года три.
за это время спас от вылета дисков - дважды
файловая система ломалась один раз (так чтоб fsck ниасилил).
осилил tar, newfs, ещё раз tar и всё.
Ибо нехрен.

Главное в жизни здоровье и любовь, остальное я все куплю.
- Alex Keda
- стреляли...
- Сообщения: 35437
- Зарегистрирован: 2004-10-18 14:25:19
- Откуда: Made in USSR
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
у меня на балконе лежит 1U супермикро, два двуядрёных оптерона 2xx, 8 планок по гигу, три 147 диска и мегарейд под них.
осталось радиаторы подобрать и готово
))
даже IPMI случайно получилось - зказал на ебай питальник - прислали это
)
=======
под lissyara.su новая машинка
осталось радиаторы подобрать и готово

даже IPMI случайно получилось - зказал на ебай питальник - прислали это

=======
под lissyara.su новая машинка
Убей их всех! Бог потом рассортирует...
-
- ефрейтор
- Сообщения: 51
- Зарегистрирован: 2007-12-06 13:57:20
Re: Умер софтовый RAID-1 на gmirror
Удалённо производить подобные манипуляции проблема ОЧЕНЬ большая - необходимо специальное, МЕГАДОРОГОЕ устройство под названием КВМ, да ещё с МЕГАДОРОГИМ модулем удалённого доступа.ev писал(а):а в чем проблема удаленно в биосе поставить загрузку со второго винта, восстановить первый и еще раз ребутнуться?
Долго думал над проблемой зеркал.
Вы абсолютно правы, что если ОС хочет убить данные, никакой RAID ей в этом не помешает. Интересно всёже, а могут ли теоретически быть RAID с контролем целостности файловой системы...
У меня разразился мировой финансовый кризис и я сейчас в глубоких размышлениях о судьбах родины: использовать второй диск в физически другом backup-сервере или поставить его ненадёжным дублёром в софтовый RAID.
backup-сервер делать всё равно надо.
Ключевой вопрос - уменьшает или увеличивает gmirror геморрой?
-
- ст. лейтенант
- Сообщения: 1325
- Зарегистрирован: 2008-07-27 17:11:30
- Откуда: Москва
Re: Умер софтовый RAID-1 на gmirror
не очень дорогое... 16 портов стоит менее 50 тыс рублейМЕГАДОРОГОЕ устройство под названием КВМ, да ещё с МЕГАДОРОГИМ модулем удалённого доступа.
рейд работает на другом уровнеИнтересно всёже, а могут ли теоретически быть RAID с контролем целостности файловой системы...
контроль целостности достигается другими средствами
-
- ефрейтор
- Сообщения: 51
- Зарегистрирован: 2007-12-06 13:57:20
Re: Умер софтовый RAID-1 на gmirror
Пожалуйста извините, но мне больно читать такие посты - нефтяные брызги из Москвы до нашей российской глубинки не долетают.ev писал(а): не очень дорогое... 16 портов стоит менее 50 тыс рублей
У нас малюсенькая компания. Все "сервера" в нашей компании суммарно стоят меньше... Установка бесплатной операционки в конторе, которая может позволить себе заплатить 50 тыр за КВМ выглядит... неразумной по крайней мере.
Огромное спасибо всем отписавшимся в данной теме!
Выводы: программный RAID усложняет систему и создаёт в ней дополнительные точки отказа. Также создаёт иллюзию большей надёжности хранимых на нём данных. Никакие RAID-ы никогда не заменяют традиционного бакапа. При наличии хорошо поставленного традиционного бакапа удорожание серверов в маленьких конторах за счёт программного RAID экономически нецелесообразно.
- Fastman
- ст. лейтенант
- Сообщения: 1236
- Зарегистрирован: 2006-07-07 10:20:38
- Откуда: Минск. РБ
Re: Умер софтовый RAID-1 на gmirror
Это неверный вывод.rambomax писал(а):Пожалуйста извините, но мне больно читать такие посты - нефтяные брызги из Москвы до нашей российской глубинки не долетают.ev писал(а): не очень дорогое... 16 портов стоит менее 50 тыс рублей
У нас малюсенькая компания. Все "сервера" в нашей компании суммарно стоят меньше... Установка бесплатной операционки в конторе, которая может позволить себе заплатить 50 тыр за КВМ выглядит... неразумной по крайней мере.
Огромное спасибо всем отписавшимся в данной теме!
Выводы: программный RAID усложняет систему и создаёт в ней дополнительные точки отказа. Также создаёт иллюзию большей надёжности хранимых на нём данных. Никакие RAID-ы никогда не заменяют традиционного бакапа. При наличии хорошо поставленного традиционного бакапа удорожание серверов в маленьких конторах за счёт программного RAID экономически нецелесообразно.
RAID != бэкап. RAID стоит в цепочке локализации точек отказа совсем в другом звене, и предназначен для создания избыточности информации в мгновенный/краткий период времени. А так же для увеличения производительности дисковой системы(IOPS/Линейные операции/Паралелльный доступ). Никогда и никакой RAID не заменит бэкапа.
По поводу софтового решения зеркалирования дисков. Если вы решите купить контроллер за деньги 300-400 долларов, то вы потратите их зря, и по надежности это решение будет ровненько с софтовым рейдом, а чаще - и того хуже. Конечно, для того чтобы обеспечить отказоустойчивость программными средствами - необходимы умение и понимание того что вы делаете.
И не нужно нам тут про нефтяные брызги рассказывать.
Вы будете копать лопатой и говорить что экскаватор хуже потому что им нужно уметь управлять а еще он может перевернуться и придавить вас ?
Главное в жизни здоровье и любовь, остальное я все куплю.
-
- ст. лейтенант
- Сообщения: 1325
- Зарегистрирован: 2008-07-27 17:11:30
- Откуда: Москва
Re: Умер софтовый RAID-1 на gmirror
+1Вы будете копать лопатой и говорить что экскаватор хуже потому что им нужно уметь управлять а еще он может перевернуться и придавить вас ?
остается только посочувствовать, что время человека (в данной организации) ценится дешевле покупки КВМ
такова судьба
дешевый КВМ можно собрать и своими силами
контроллер Atmel + Realtek и небольшая обвязка (общая стоимость всего комплекта не превысит 2 тыс. рублей) = КВМ для rs232
- Alex Keda
- стреляли...
- Сообщения: 35437
- Зарегистрирован: 2004-10-18 14:25:19
- Откуда: Made in USSR
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
э... триварь или арека стока стоит...Fastman писал(а):По поводу софтового решения зеркалирования дисков. Если вы решите купить контроллер за деньги 300-400 долларов, то вы потратите их зря, и по надежности это решение будет ровненько с софтовым рейдом, а чаще - и того хуже.
это плохие контроллеры? или ты про сказю/сас говорил?
Убей их всех! Бог потом рассортирует...
- Fastman
- ст. лейтенант
- Сообщения: 1236
- Зарегистрирован: 2006-07-07 10:20:38
- Откуда: Минск. РБ
Re: Умер софтовый RAID-1 на gmirror
Я про SAS... про промышленное SATA можно забывать к сожалению.lissyara писал(а):э... триварь или арека стока стоит...Fastman писал(а):По поводу софтового решения зеркалирования дисков. Если вы решите купить контроллер за деньги 300-400 долларов, то вы потратите их зря, и по надежности это решение будет ровненько с софтовым рейдом, а чаще - и того хуже.
это плохие контроллеры? или ты про сказю/сас говорил?
Cофто-базо писатели вконец охренели и стали плодить монстров которые прилично ворочаются толко на SAS.
Просто по моим наблюдениям выходит что софтовое win/lin/bsd зеркало намного вменяемей чем зеркало например на интеловском ICH
Главное в жизни здоровье и любовь, остальное я все куплю.
- Alex Keda
- стреляли...
- Сообщения: 35437
- Зарегистрирован: 2004-10-18 14:25:19
- Откуда: Made in USSR
- Контактная информация:
Re: Умер софтовый RAID-1 на gmirror
винда вроде не умеет нормальные зеркала - которые могут бутиться при отвале основного диска...
Убей их всех! Бог потом рассортирует...
- Fastman
- ст. лейтенант
- Сообщения: 1236
- Зарегистрирован: 2006-07-07 10:20:38
- Откуда: Минск. РБ
Re: Умер софтовый RAID-1 на gmirror
Умеет.lissyara писал(а):винда вроде не умеет нормальные зеркала - которые могут бутиться при отвале основного диска...
Главное в жизни здоровье и любовь, остальное я все куплю.
- Alex Keda
- стреляли...
- Сообщения: 35437
- Зарегистрирован: 2004-10-18 14:25:19
- Откуда: Made in USSR
- Контактная информация: