Страница 1 из 2

Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-13 2:10:49
Evgen_pnz
Ещё раз доброго времени суток!
И так имеется:
FreeBSD 7.0-relaase i386
CPU: Intel(R) Celeron(R) CPU 2.93GHz (2929.51-MHz 686-class CPU)
real memory = 2146697216 (2047 MB)
avail memory = 2095570944 (1998 MB)
Было установлено 4 диска: ad0, ad1, ad4, ad6

Код: Выделить всё

ad0: 76319MB <Seagate ST380011A 8.01> at ata0-master UDMA100
ad1: 305245MB <WDC WD3200AAJB-00WGA0 00.02C01> at ata0-slave UDMA100
ad4: 715404MB <Seagate ST3750640AS 3.AAE> at ata2-master SATA150
ad6: 152627MB <WDC WD1600AAJS-22WAA0 58.01D58> at ata3-master SATA150
Машина в принципе боевая честно служила практически без простоя 6 месяцев, естественно прерываясь только на профилакты.
И проблем с ней небыло. Однако неделю назад стали появляться ошибки

Код: Выделить всё

ad1: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=619745471
ad1s1d[READ(offset=314088423424, length=16384)]error = 5
ad1: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=620121823
g_vfs_done():ad1s1d[READ(offset=314281115648, length=16384)]error = 5
ad1: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=620121823
g_vfs_done():ad1s1d[READ(offset=314281115648, length=16384)]error = 5
ad1: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=622003583
g_vfs_done():ad1s1d[READ(offset=315244576768, length=16384)]error = 5
ad1: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=624638047
g_vfs_done():ad1s1d[READ(offset=316593422336, length=16384)]error = 5
ad1: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=619745471
g_vfs_done():ad1s1d[READ(offset=314088423424, length=16384)]error = 5
естественно первым делом стал грешить на диск, ввиду того что машина в работе срочным порядком отключил диск. Думал проблема решена, но ни тут то было:

Код: Выделить всё

ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
Как видно полезли ошибки уже на диски ad0 который до этого ни разу в этом замечен не был.
Сразу закралась мысль, что дело врядли в дисках. Стал грешить на шлейф. Заменил, в итоге получил:

Код: Выделить всё

ad0: 76319MB <Seagate ST380011A 8.01> at ata0-master UDMA33
ad4: 715404MB <Seagate ST3750640AS 3.AAE> at ata2-master SATA150
ad6: 152627MB <WDC WD1600AAJS-22WAA0 58.01D58> at ata3-master SATA150
...
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
ad0: FAILURE - READ_DMA status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=39788895
g_vfs_done():ad0s1e[READ(offset=14466301952, length=16384)]error = 5
После всех этих выкрутасов проверил оба диска, они в норме :pardon:
Подскажите пожалуйста, может кто сталкивался с такой ситуацией?

Сейчас вынужден катать сервер игнорируя эти ошибки, но это крайне не верный подход, поэтому стал готовить на замену новую машину, но хотелось бы разобраться, что же хочет от меня эта :smile:
Заранее огромное спасибо!

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-13 2:44:52
ProFTP
попробуй биос в дефаулт поставить

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-13 2:59:32
ProFTP
или может fsck

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-13 10:47:32
strmaks
В подобной ситуации мне помогло: вынуть планки памяти, протереть контакты на планках спиртом, почистить слоты для памяти на материнской плате жесткой кисточкой, вставить память назад. Почему не знаю, но помогло, ошибки исчезли.

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-14 0:10:52
Evgen_pnz
strmaks писал(а):В подобной ситуации мне помогло: вынуть планки памяти, протереть контакты на планках спиртом, почистить слоты для памяти на материнской плате жесткой кисточкой, вставить память назад. Почему не знаю, но помогло, ошибки исчезли.
Побывал не помогает :(
ProFTP писал(а):попробуй биос в дефаулт поставить
тоже результата нет.
ProFTP писал(а):или может fsck
Не подскажешь с какими ключами запустить для исправления ошибок в multi-user mode, ли только в сингле прокатит?

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-14 0:39:32
manefesto
[3:34]|root@server.manefesto| manefesto/>grep -e fsck /etc/defaults/rc.conf
fsck_y_enable="NO" # Set to YES to do fsck -y if the initial preen fails.
fsck_y_flags="" # Additional flags for fsck -y
background_fsck="YES" # Attempt to run fsck in the background where possible.
background_fsck_delay="60" # Time to wait (seconds) before starting the fsck.

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-14 0:40:14
manefesto
а вообще замени винт и потом говори что всё нормально

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-14 0:46:22
gloom
питальник поставь нормальный

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-14 1:36:40
Evgen_pnz
manefesto писал(а):а вообще замени винт и потом говори что всё нормально
Да вытаскивали мы их тестили, точнее тестил уже не я, а коллега, но говорит оба в принципе в норме, количество проблемных секторов практически в рамках того количества что и у дисков допускаемых производителями для реализации(естественный брак, неоднородности и т.п.). Да и за все 2 года работы ну не видел я, чтобы в разнос неожиданно уходили сразу два харда. Может быть мне раньше просто везло :pardon:
gloom писал(а):питальник поставь нормальный
Если ты про блок питания, то он работает стабильно, на профилактах всегда проверяем его полностью, а если имеешь в виду ибп то у нас стоят АПЦ смарты киловаттники.

Щас вот копируем все данные со сбойной машины на бекап сервер. Завтра будем разворачивать новый сервак прям из коробки сегодня достали и в стойку установили :Yahoo!:. Так что появится время на спокойное изучение вопроса. Первым делом после переноса данных попробую диски новые поставить и Фрю переустановить, а там уже видно будет с машиной, возможно уже списывать пора :smile:

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-14 5:44:54
gloom
чтоб выяснить стабильно БП работает надо под разными нагрузками надо щюпать его осциллографом...
сомневаюсь что у вас есть такой стенд...

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-14 20:44:43
Alex III ™
Только что была аналогичная ситуация! Не знаю как вы там их тестили но у меня MHDD показала пол винта задержки 500 мс и бэдов чуть чуть ) Думаю 100% винчестер !

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-15 2:48:31
Evgen_pnz
gloom писал(а):чтоб выяснить стабильно БП работает надо под разными нагрузками надо щюпать его осциллографом...
сомневаюсь что у вас есть такой стенд...
Стенд то есть но вот осциллографом не укомплектован, наши технари давно просят выделить денег на покупку, но пока как обычно глухо...

Сегодня снял машину с работы, за место неё ввёл новую. К вечеру опыты с fsck проводил, вроде есть результат, оставил на воскресенье включенным, утром в понедельник гляну что там, и наверное всё же сам протестирую ещё раз диски.

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-15 12:04:48
Alex Keda
желательно тестить на той же машине где и глюки
проблема может быть комплексной

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-15 17:08:05
Gerk
Evgen_pnz писал(а): Стал грешить на шлейф. Заменил, в итоге получил:

Код: Выделить всё

ad0: 76319MB <Seagate ST380011A 8.01> at ata0-master UDMA33
А почему у Вас с новым шлейфом винчестер DMA33 стал а не как раньше 100? Точно шлейф нормальный? или 40ка жильный поставили?

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-15 18:14:20
Evgen_pnz
Gerk писал(а):А почему у Вас с новым шлейфом винчестер DMA33 стал а не как раньше 100? Точно шлейф нормальный? или 40ка жильный поставили?
Да, на тот момент под рукой было 2 шлейфа 40 и 80 жильные. Вначале поставил как положено 80-ти, но ошибки продолжились и тогда ради эксперимента :"": поставил 40 жильный и подключил к нему только ad0, на котором и стоит Фря, собственно после этого и копировал записи логов ;-)

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-15 18:30:54
Gerk
А напишите, пожалуйста, Вашу модель материнки, пока видна только одна закономерность - глючат IDE винты.
Возможно чипсет или внешний контроллер начинает погибать... винты/микросхемы логики на MB охлаждаются нормально?

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-15 18:45:50
Evgen_pnz
Щас уже не помню точно но по моему там Асус P4P800-X, это одна из старых машин в корпусе tower, сейчас у нас стоят в основном Dell PE R300 в стойках, хотя есть и другие зверёныши. Машине ~4 года, она там уже работала когда я пришёл, собственно говоря поэтому я и заикнулся от том, что если ничего не поможет списывать будем :pardon:

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-11-15 19:19:26
Evgen_pnz
Хотя может там и P4i65G, в упор точно не помню. Честно говоря я как раз сначала погрешил на диск ad1 так как именно на него греша сыпались ошибки, когда я его отключил то ошибки пошли на ad0, чего до отключения второго диска не было. Именно тогда я и задумался, что причина может быть и не в дисках, а в матери к примеру.

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-12-01 20:04:48
playnet
Evgen_pnz писал(а): а коллега, но говорит оба в принципе в норме, количество проблемных секторов практически в рамках того количества что и у дисков допускаемых производителями для реализации(естественный брак, неоднородности и т.п.).:
Количество проблемных секторов должно быть 0. Иначе винч в замену. А всякие "естественные браки" ни в смарте ни на поверхности при выходе с завода недопустимы. "Изначальные" бэды сидят в таблицах ремапа диска и без спец железа о них не узнать.
Не знаю насчет проф комплексов, но обычным софтом типа mhdd наличие хотя бы 1 pending/remapped сектора говорит о проблеме и требует только замены диска. Также скан поверхности не должен показать НИ ОДНОГО бэда. Ибо таблица ремапов есть только в винче и штатными средствами не получается никак. Да даже просто сектор >500мс - в замену. Ругань кстати в чистом виде на бэды.

Из советов - действительно заменить диски, шлейфы, БП. Проверить контроллер.

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-12-01 20:22:14
angelas_
У меня сколько было таких матюков, то во всех случаях были проблемы с дисками, всегда менял.
А насчёт потери обоих дисков из огного зеркала - и у меня такое было в своё время..

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-12-01 21:01:15
Evgen_pnz
Как я уже писал, машину поставил на прикол, всю инфу перебросил на новенькую машину. А эту запустил под внутренние цели там где инфа не настолько ответственная, служебку написали ждём поставки дисков от партнёров. И всё таки у меня есть подозрение что если это диски а не контроллер, то пошли в разнос они из-за перегрева, проводил эксперимент с сигаретным дымом :oops: чтобы определить потоки воздуха в машине, так видно что винты находятся в кармане где воздух почти тупо стоит, буду ставить доп. куллеры и менять направление потоков :roll:

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-12-01 23:10:36
Overseer
а smartctl что говорит?

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-12-01 23:30:05
Evgen_pnz
температура, правда это почти на холостом ходу
ad0: 58
ad1: 60
ad4: 60
ad6: 50

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-12-02 11:22:52
arkan
Была у меня когдато подобная проблеммка
IDE винты благодаря своей кривизне имеют очень ненадежный разьем питания
тоесть возьми разиемы питания на блоке питания и просто сами металлические трубочки согни немного чтоб в жесткий диск они входили плотно
кстати IDE винты как правило от этого и дохнут что проблеммы с питанием

Re: Сыпятся ошибки FAILURE - READ_DMA, хотя диски в норме

Добавлено: 2009-12-02 11:55:42
Alex Keda
тогда с появлением SATA мы наблюдаем явный регресс...