Рухнул ZFS на сервере (большая трабла...)

Проблемы установки, настройки и работы Правильной Операционной Системы

Модератор: terminus

Правила форума
Убедительная просьба юзать теги [cоde] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-27 0:11:56

voider писал(а):кароче как можно быстрее с него данные копируй ,а то потом будет поздно
Ага, пул бы только запустился... )

Kazak, спс, завтра буду пробовать. Только оффлайн точно не прокатывает, т.к. отвечает, что нет пулов.

hranitel_y2k, внимание на третий из-за его отличающегося от других трёх txg, то есть походу на нём запнулись транзакции, а то, что обеим сигейтам хана - это итак ясно, если удастся с них чё-то прочитать, то сразу после этого втопку их ) Вика, может, и поможет, просто пока руки не дошли, т.к. долгий процесс, а у меня ещё с парой серваков непонятки из-за выпада этого :)

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

hranitel_y2k
сержант
Сообщения: 154
Зарегистрирован: 2007-12-10 21:04:35

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение hranitel_y2k » 2011-01-27 0:23:21

EuGenE писал(а):
hranitel_y2k, внимание на третий из-за его отличающегося от других трёх txg, то есть походу на нём запнулись транзакции, а то, что обеим сигейтам хана - это итак ясно, если удастся с них чё-то прочитать, то сразу после этого втопку их ) Вика, может, и поможет, просто пока руки не дошли, т.к. долгий процесс, а у меня ещё с парой серваков непонятки из-за выпада этого :)
Не так уж долго, 320 гигов в среднем 2-2,5 часа сканируются. 5 секторов не так много - шансы заремапить и получить вполне читаемый диск хорошие.
Еще смущает такой момент: вы пытаетесь вытащить инфу из массива, меняя только 3 диск. Не может быть так,что из-за первого битого диска вы получаете ошибку?
IMHO,лучше попытаться поработать с дисками на физическом уровне,а потом уже пытаться восстанавливать файловую систему.
Все гениальное - просто!

Kazak
мл. сержант
Сообщения: 99
Зарегистрирован: 2009-07-28 9:46:46

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение Kazak » 2011-01-27 10:02:07

hranitel_y2k писал(а):Почему все,да и сам автор, обращают внимание только на 3 диск? Если судить по смарт (будем считать,что он правильно показывает состояние дисков), то первый диск в еще худшем состоянии. Для 3 диска UNC секторов 5,а для 1 - 79.
Я бы выбросил первый диск, поскольку там уже точно ловить нечего. А вот по 3 прошелся викторией с REMAP,глядишь получиться подправить эти 5 битых секторов и считать всю инфу,а дальше уже "resilver"...

Код: Выделить всё

UNC (Uncorrectable Data Error). Не удалось скорректировать данные избыточным кодом, блок признан нечитаемым. Может быть как следствием нарушения контрольной суммы данных, так и следствием физического повреждения HDD;
voider писал(а):spin retry count 97 а всего 100 3 ошибки осталось и винт запускаться не будет
Надо RAW(HEX) смотреть,а не THRESHOLD
Хорошее замечание, да только может не все явно сказали...но тут помоему имеются ввиду две весчи:
1.Понятное дело, ему нужно выяснить какой диск не дает поднять массив, создает больше всего проблем и его вывести из пула, не суть будь то диск1,либо 2 либо 3...
2.Поднятие пула для Eugene имеет смысл только для копирования информации ...после чего уже незамедлительная сонация дисков ( выброс, замена... тд, тп).

hranitel_y2k
сержант
Сообщения: 154
Зарегистрирован: 2007-12-10 21:04:35

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение hranitel_y2k » 2011-01-27 11:18:38

Kazak писал(а): Хорошее замечание, да только может не все явно сказали...но тут помоему имеются ввиду две весчи:
1.Понятное дело, ему нужно выяснить какой диск не дает поднять массив, создает больше всего проблем и его вывести из пула, не суть будь то диск1,либо 2 либо 3...
2.Поднятие пула для Eugene имеет смысл только для копирования информации ...после чего уже незамедлительная сонация дисков ( выброс, замена... тд, тп).
Все что я написал, это только для того чтобы поднять диск и скопировать инфу. Дальнейшая эксплуатация этих битых дисков нежелательна.
А еще из опыта знаю,что один UNC сектор может тормознуть все считывание с диска,диск просто зацикливается и подвисает. Ремап может спасти положение.
Но ВСЕ нужно делать аккуратно и не торопясь,чтобы не ухудшить текущее положение и была возможность обратиться к профессиональным ремонтникам.
Все гениальное - просто!

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-27 12:04:51

Мдя, на этом древнем Supermicro оказалось всего 4 SATA разъёма, так что со spare пока не вариант... Ща буду мучать Викой. спасибо Вам, хорошие люди за помощь!

Аватара пользователя
voider
лейтенант
Сообщения: 830
Зарегистрирован: 2008-02-21 20:35:03
Откуда: msk

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение voider » 2011-01-27 17:00:51

EuGenE писал(а):
voider писал(а):кароче как можно быстрее с него данные копируй ,а то потом будет поздно
Ага, пул бы только запустился... )
влип значит))

Аватара пользователя
NoResponse
мл. сержант
Сообщения: 76
Зарегистрирован: 2007-07-30 1:39:02
Контактная информация:

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение NoResponse » 2011-01-27 20:18:18

у меня примерно тоже самое было на домашней файлпомойке
в пул(без рейд-з) 3 харда сунул что в закромах родины нашел - 500 гиг сата самсунг, 120 и 160 гиг иде сигейты
пул достаточно быстро забился под завязку и прожил примерно год пока в один прекрасный день из под стола я не услышал приятного сердцу похрустывания, серв лежал... в этот момент я еще был весел и подумал - заебись как совпало, ща какраз и кулеры почищу, а то перегревы задолбали... "починил" и надеялся отделаться кнопкой включения... биос, загрузка фри, все супер, стадия монтирования, сегфолт... тут моя радостная морда меняется в лице с криком - чеоооо?.. еще несколько попыток запустить нормально ни к чему не привели... мне стало грустно... и я нажал 4, загрузился, немного успокоился что основное живо
зпул лист - все на месте
зпул импорт - сегфолт. много, ооочень много нецензурных слов вырвалось из моих уст
еще несколько безуспешных попыток
решил что если не восстановлю, то хоть поэксперементирую... хотя терять кучу музыки ой как не хотелось
на карачках лезу под стол чтоб вытащить харды и в "далеке" слышу - дзынь дзынь, этот дзынь манит меня и я прибавил газу...
на слух определил что звал меня - 160
в серваке тестить долго не мог, оный не только как файлпомойка, еще инет раздает
вытащил харды и положил на полочку до появления других дисков
запустил серв и полез в инет искать решения сей траблы
открыл кучу вкладок с "решениями" проблемы
в виртуалке провел несколько тестов и выяснил что не обязательно пул запускать
диск клонировать можно и dd, главное чтоб новый диск был того же размера или больше
если диск больше то и пул станет больше
появился новый хард на 1 тб сата
дд иф=/160гб оф=/1тб блабла
все подключил...
бут...
зпул лист - все ок
зпул импорт -ф - ОК
зпул статус - еррор и список файлов
как же я был рад увидев это
даже список из примерно 25 еррор файлов не омрачал мою радость
даже эти 25 не потерял, просто они битые оказались
Я сам по себе скопище энтропии. А по законам термодинамики, если не принимать никаких действий энтропия стремится к бесконечности. Похоже, так оно и есть.

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-27 22:37:09

Ага, клон - вариант, буду пробовать как последнее возможное спасение, правда, у меня 320 ГБ винтов больше нет, есть 500 ГБ и что будет, если его в RAID-Z сунуть вместо 320, я пока не знаю... :)

hranitel_y2k
сержант
Сообщения: 154
Зарегистрирован: 2007-12-10 21:04:35

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение hranitel_y2k » 2011-01-27 23:21:33

EuGenE писал(а):Ага, клон - вариант, буду пробовать как последнее возможное спасение, правда, у меня 320 ГБ винтов больше нет, есть 500 ГБ и что будет, если его в RAID-Z сунуть вместо 320, я пока не знаю... :)
Ничего плохого быть не должно, вы же не меньше,а больше винт ставите. Крайний случай - всегда есть HPA (man viktoriya) ;-)
Кстати, викторией прошлись? какие результаты?
Все гениальное - просто!

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-28 11:28:52

hranitel_y2k, Викой прошёлся - результаты положительные: на третьем диске ремап 5 блоков, на первом аж 61. В итоге пул всё-таки поднялся, сначала ругнулся на неверные транзакции, потом подумал и загрузился в систему :) Теперь срочный бэкап ) Огроменное спасибо за помощь! )

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-28 13:25:45

По ходу дела возник ещё вопрос: может кто в курсе, как эти два битых харда вывести из пула? zpool detach не катит, т.к. пул зеркальный. Как указать ZFS перенести всю инфу на указанные диски, а битые вынуть? По идее никаких трудностей быть не должно, т.к. вся инфа занимает всего чуть более 100 ГБ.

pimlab
прапорщик
Сообщения: 484
Зарегистрирован: 2007-10-09 11:31:03

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение pimlab » 2011-01-28 13:53:25

Код: Выделить всё

zpool replace -f pool old_device new_device

Kazak
мл. сержант
Сообщения: 99
Зарегистрирован: 2009-07-28 9:46:46

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение Kazak » 2011-01-28 13:55:27

pimlab писал(а):

Код: Выделить всё

zpool replace -f pool old_device new_device
Обогнал :)))

Kazak
мл. сержант
Сообщения: 99
Зарегистрирован: 2009-07-28 9:46:46

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение Kazak » 2011-01-28 13:58:35

EuGenE писал(а):По ходу дела возник ещё вопрос: может кто в курсе, как эти два битых харда вывести из пула? zpool detach не катит, т.к. пул зеркальный. Как указать ZFS перенести всю инфу на указанные диски, а битые вынуть? По идее никаких трудностей быть не должно, т.к. вся инфа занимает всего чуть более 100 ГБ.
А вам Eugene я бы советовал таки добавить Spare винт, или несколько ..если есть возможность, с ними ваш путь к восстановлению системы, был бы проще и короче,имхо...хотя может я и не прав.

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-28 15:14:31

Товарищи, спасибо, это я в курсе, но spare не катит, т.к. некуда вставлять новый винт - все SATA'шные разъёмы на матери заняты (

pimlab
прапорщик
Сообщения: 484
Зарегистрирован: 2007-10-09 11:31:03

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение pimlab » 2011-01-28 15:28:23

ну чисто в теории... переводите один диск в оффлине , отключаете , подключаете новый и в путь

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-28 17:03:27

Говорит, реплик нету, поэтому и ищу способы перегнать инфу так, чтобы они и не нужны были или как-то перераспределить харды на лету...

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-28 17:50:59

Чё-то так пока ничего и не нарыл... Может, кто в курсе, как сделать дамп или снапшоты в файл, чтобы уничтожить пул, убрать два харда, создать новый на рабочих и развернуть на них всё по новой?

pimlab
прапорщик
Сообщения: 484
Зарегистрирован: 2007-10-09 11:31:03

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение pimlab » 2011-01-28 18:18:40

http://phpsuxx.blogspot.com/2010/09/raid-z-freebsd.html
тут есть про замену диска в raidz

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-01-28 19:22:01

Спасибо, почитаем. Маны от Sun не помогли пока...

pimlab
прапорщик
Сообщения: 484
Зарегистрирован: 2007-10-09 11:31:03

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение pimlab » 2011-02-02 13:46:02

вы бы отписались, что в итоге...

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-02-02 18:36:20

В итоге пока засада... новые диски не подключить, старые не заменить - некоторые ошибки не лечатся никаким образом (не помогают scrub и clean - ресильвер проходит, но при повторной проверке всё на своём месте как было остаётся), причём некоторые из них как раз в почтовой базе. Пробовал снапшотом отправить ФС на флешку, но снапшот с датасетом /var не переносится (там как раз и сидят ошибки ФС и побитая база постфикса... ( ). dump с zfs естессно не работает. Пока хотя бы скопировал некоторые конфиги и настройки госы, чтобы поднять её на контроллере домена (она почему-то была на роутере раньше, говорят, у старых админов с ней дружба не заладилась, впрочем, и у меня тоже далеко не сразу, но это другая история). Дальше поглядим, в принципе, уже почти готов к тому, чтобы снести всё нафиг, выкинуть посыпавшиеся сигейты и накатить систему заново (хорошо, конфиги то остались). Пока жду от начальства финансов на новые харды (вдруг дадут), чтобы не зря сейчас поднимать пул на двух оставшихся.

hranitel_y2k
сержант
Сообщения: 154
Зарегистрирован: 2007-12-10 21:04:35

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение hranitel_y2k » 2011-02-02 23:01:33

EuGenE писал(а):В итоге пока засада... новые диски не подключить, старые не заменить - некоторые ошибки не лечатся никаким образом (не помогают scrub и clean - ресильвер проходит, но при повторной проверке всё на своём месте как было остаётся), причём некоторые из них как раз в почтовой базе. Пробовал снапшотом отправить ФС на флешку, но снапшот с датасетом /var не переносится (там как раз и сидят ошибки ФС и побитая база постфикса... ( ). dump с zfs естессно не работает. Пока хотя бы скопировал некоторые конфиги и настройки госы, чтобы поднять её на контроллере домена (она почему-то была на роутере раньше, говорят, у старых админов с ней дружба не заладилась, впрочем, и у меня тоже далеко не сразу, но это другая история). Дальше поглядим, в принципе, уже почти готов к тому, чтобы снести всё нафиг, выкинуть посыпавшиеся сигейты и накатить систему заново (хорошо, конфиги то остались). Пока жду от начальства финансов на новые харды (вдруг дадут), чтобы не зря сейчас поднимать пул на двух оставшихся.
Уважаемый, вы вроде говорили,что есть дист терабайтник? Сата портов свободных нет, а IDE есть? Используйте переходник IDE-SATA, подключите диск и скопируйте данные, можно даже посекторной копией. А потом уже играйте с массивом.
Такой вопрос,в статье приведенной выше (http://phpsuxx.blogspot.com/2010/09/raid-z-freebsd.html),Есть подпункт "Физическая замена одного из дисков". Пробовали? Лучше начать с первого,а потом третий менять.
Просто интересно, на практике теория работает или нет.
Все гениальное - просто!

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-02-03 23:40:22

Ага вот по этому пункту буду пробовать завтра на другом серваке - на NAS'e один из хардов со свопом посыпался. Извлечение на работу не повлияло, посмотрим, как новый подставится...

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: Рухнул ZFS на сервере (большая трабла...)

Непрочитанное сообщение EuGenE » 2011-02-04 13:04:50

В общем, повозился я с NAS'ом и выяснились интересные вещи. Стоит в серваке контроллер 3ware 9550SX-16М (вроде неплохая железка), на нём соответственно 16 террабайтных хардов.

Пул имеет вот такой вид:

Код: Выделить всё

nas:~# zpool status -v
  pool: data
 state: ONLINE
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        data        ONLINE       0     0     0
          raidz1    ONLINE       0     0     0
            da0     ONLINE       0     0     0
            da1     ONLINE       0     0     0
            da2     ONLINE       0     0     0
            da3     ONLINE       0     0     0
            da4     ONLINE       0     0     0
            da5     ONLINE       0     0     0
            da6     ONLINE       0     0     0
          raidz1    ONLINE       0     0     0
            da7     ONLINE       0     0     0
            da8     ONLINE       0     0     0
            da9     ONLINE       0     0     0
            da10    ONLINE       0     0     0
            da11    ONLINE       0     0     0
            da12    ONLINE       0     0     0
            da13    ONLINE       0     0     0
        cache
          da14p2    ONLINE       0     0     0
          da15p2    ONLINE       0     0     0 

errors: No known data errors
Как я понимаю, контроллер работает в режиме бесконтрольном выполняя роль связующего звена для всех хардов, а рэйд построен в том же ZFS пуле raidz. Дык вот после выхода из строя 15-го диска, на котором висел кэш (не буду расписывать какие кренделя он выписывал в консоли при этом) da15p2 - я его заменил на новый хард. После танцев с бубном в биосе 3ware диск увиделся бсдёй, но теперь имеем такую картину:

Код: Выделить всё

nas:~# zpool status -v
  pool: data
 state: ONLINE
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        data        ONLINE       0     0     0
          raidz1    ONLINE       0     0     0
            da0     ONLINE       0     0     0
            da1     ONLINE       0     0     0
            da2     ONLINE       0     0     0
            da3     ONLINE       0     0     0
            da4     ONLINE       0     0     0
            da5     ONLINE       0     0     0
            da6     ONLINE       0     0     0
          raidz1    ONLINE       0     0     0
            da7     ONLINE       0     0     0
            da8     ONLINE       0     0     0
            da9     ONLINE       0     0     0
            da10    ONLINE       0     0     0
            da11    ONLINE       0     0     0
            da12    ONLINE       0     0     0
            da13    ONLINE       0     0     0
        cache
          da14p2    ONLINE       0     0     0
          da15p2    UNAVAIL      0     0     0  cannot open

errors: No known data errors
Система работает нормально, FreeNAS не ругается ни на что, но как сделать replace кэшевому диску? У диска 14 структура выглядит так: da14, da14p1, da14p2. Дык вот суть вопроса: может кто-нибудь подскажет, каким макаром средствами zfs или лучше через веб-фейс FreeNAS прикрутить новый хард кэшем при этом взяв из него второй раздел, предварительно разбив его на три раздела. Кстати, может у кого есть идеи зачем вообще так сделано?