Uncorrectable parity CRC error

Решение проблем связванных с работой железа. Проблемы программно-аппаратной совместимости.
Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Аватара пользователя
Alucard
ефрейтор
Сообщения: 54
Зарегистрирован: 2007-05-08 21:34:14
Контактная информация:

Uncorrectable parity CRC error

Непрочитанное сообщение Alucard » 2015-03-10 23:34:57

Есть сервер, файлопомойка/торрентокачалка Q9550/SuperMicro X7SBL-LN1/8Gb c FreeBSD 10.0-RELEASE #0 r260789
и на нем диски

Код: Выделить всё

<TOSHIBA DT01ACA300 MX6OABB0>      at scbus0 target 0 lun 0 (ada0,pass0)
<TOSHIBA DT01ACA300 MX6OABB0>      at scbus2 target 0 lun 0 (ada1,pass1)
<TOSHIBA DT01ACA300 MX6OABB0>      at scbus3 target 0 lun 0 (ada2,pass2)
<Hitachi HUA723020ALA640 MK7OAA10>  at scbus5 target 0 lun 0 (ada3,pass3)
<WDC WD15EADS-00P8B0 01.00A01>     at scbus6 target 0 lun 0 (ada4,pass4)
<Hitachi HDS722020ALA330 JKAOA3MA>  at scbus7 target 0 lun 0 (ada5,pass5)
<Hitachi HDS722020ALA330 JKAOA3MA>  at scbus8 target 0 lun 0 (ada6,pass6)
<Hitachi HDS723020BLA642 MN6OA580>  at scbus9 target 0 lun 0 (ada7,pass7)
<Hitachi HDS722020ALA330 JKAOA3MA>  at scbus10 target 0 lun 0 (ada8,pass8)
первые три трехтерабайтные тошибы на контроллере Marvell 88SE9215 PCI-E 1x, остальное на чипсетном (6 портов, в режиме ACHI)

и на двух дисках постоянно сыплятся ошибки (подключены к портам на материнской плате)

Код: Выделить всё

(ada3:ahcich4:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 62 b0 84 40 9d 00 00 00 00 00
(ada3:ahcich4:0:0:0): CAM status: Uncorrectable parity/CRC error
(ada3:ahcich4:0:0:0): Retrying command

(ada7:ahcich8:0:0:0): READ_FPDMA_QUEUED. ACB: 60 00 22 b6 44 40 6a 00 00 01 00 00
(ada7:ahcich8:0:0:0): CAM status: Uncorrectable parity/CRC error
(ada7:ahcich8:0:0:0): Retrying command
на остальных дисках такого не наблюдается..

состояние "проблемных" дисков:
ada3 (он кстати загрузочный, на нем система)

Код: Выделить всё

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   133   133   054    Pre-fail  Offline      -       93
  3 Spin_Up_Time            0x0007   128   128   024    Pre-fail  Always       -       491 (Average 480)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       62
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   123   123   020    Pre-fail  Offline      -       31
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       5564
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       62
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       283
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       283
194 Temperature_Celsius     0x0002   125   125   000    Old_age   Always       -       48 (Min/Max 21/55)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       2740
ada7

Код: Выделить всё

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   134   134   054    Pre-fail  Offline      -       87
  3 Spin_Up_Time            0x0007   140   140   024    Pre-fail  Always       -       430 (Average 391)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       118
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   133   133   020    Pre-fail  Offline      -       27
  9 Power_On_Hours          0x0012   099   099   000    Old_age   Always       -       12105
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       111
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       177
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       177
194 Temperature_Celsius     0x0002   136   136   000    Old_age   Always       -       44 (Min/Max 20/55)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       344
на ada3 очень быстро растет атрибут UDMA_CRC_Error_Count - что вроде бы говорит о неисправном шлейфе - но сегодня сменил шлейфы на новые SATA 6G (c защелками) и за сегодня этот атрибут вырос с 2200 до 2740.. на втором диске ошибки происходят очень сильно реже..

Блок питания нормальный - Thermaltake 650w - да и остальные диски без проблем.. вот еще что настораживает - оба диска из серии 7к3000, остальные 7к2000, тошибы и вд грин чувствуют себя прекрасно..

Что еще можно попробовать?.. завтра попробую поменять порт в который подключен диск.. и посмотреть будут ли ошибки на том же диске или нет..

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

Аватара пользователя
Alex Keda
стреляли...
Сообщения: 35332
Зарегистрирован: 2004-10-18 14:25:19
Откуда: Made in USSR
Контактная информация:

Uncorrectable parity CRC error

Непрочитанное сообщение Alex Keda » 2015-03-11 16:29:30

Снять, потестить MHDD
Убей их всех! Бог потом рассортирует...

Аватара пользователя
Alucard
ефрейтор
Сообщения: 54
Зарегистрирован: 2007-05-08 21:34:14
Контактная информация:

Uncorrectable parity CRC error

Непрочитанное сообщение Alucard » 2015-03-11 17:03:44

Переключил из режима ACHI в SATA, загрузился с флешки в Victoria - сейчас тестируется (ada3), уже процентов 15.. ошибок нет..

а вот что сделал ранее - перезагрузился в Single user mode и по два раза запускал fsck.. все два "проблемных" диска проходят fsck нормально, ошибок нет в том числе и Uncorrectable parity CRC error во время fsck небыло..

зато ada2 (Toshiba 3Tb) во время fsck начал щелкать.. и на консоль ошибки выводится..

сейчас снял его, на другой компьютер поставил - там сразу венда написал ошибку "Забекапте диск и замените его - вскоре будет потеря данных", так же в Intel Rapid manager он отмечен восклицательным знаком (ошибка SMART - возможна потеря данных).. Тестирую его сейчас в HDD Scan - много коричневых и красных по первому проходу теста (чтение) и иногда постукивает.. о_0 но по второму проходу все ок.. странно..

В смарте завален параметр Seek_Error_Rate (из-за этого Smart status - BAD).. но Reallocated_Sector_Count и Current_Pending_Sector по нулям.. даже и не знаю что теперь с этим диском делать - нести по гарантии?..

guest
проходил мимо

Uncorrectable parity CRC error

Непрочитанное сообщение guest » 2015-03-11 19:17:33

Alucard писал(а):Переключил из режима ACHI в SATA, загрузился с флешки в Victoria - сейчас тестируется (ada3), уже процентов 15.. ошибок нет..

а вот что сделал ранее - перезагрузился в Single user mode и по два раза запускал fsck.. все два "проблемных" диска проходят fsck нормально, ошибок нет в том числе и Uncorrectable parity CRC error во время fsck небыло..

зато ada2 (Toshiba 3Tb) во время fsck начал щелкать.. и на консоль ошибки выводится..

сейчас снял его, на другой компьютер поставил - там сразу венда написал ошибку "Забекапте диск и замените его - вскоре будет потеря данных", так же в Intel Rapid manager он отмечен восклицательным знаком (ошибка SMART - возможна потеря данных).. Тестирую его сейчас в HDD Scan - много коричневых и красных по первому проходу теста (чтение) и иногда постукивает.. о_0 но по второму проходу все ок.. странно..

В смарте завален параметр Seek_Error_Rate (из-за этого Smart status - BAD).. но Reallocated_Sector_Count и Current_Pending_Sector по нулям.. даже и не знаю что теперь с этим диском делать - нести по гарантии?..
нести

у Вас не корректируемые ошибки на дисках, а Вы fsck запускаете?!
это было бы справедливо для ext2/3/4 - там в fsck есть проверка на BAD.

Снимаете ada3/ada7 - качаете с торрента Alkid LiveCD/USB, в BIOS вместо AHCI выставляете IDE/Enhanced
и запускаете Victoria. (Для дисков больше 1TB, следует задавать сектора)

BAD'ы могут быть реаллокированы лишь во время ЗАПИСИ.
Ну и можно через dd снять образ в файл или на другой диск аналогичного объема.

ps. Можно ничего не снимать, ставите smartmontools и запускаете smartctl short и long test - получаете
результат.

guest
проходил мимо

Uncorrectable parity CRC error

Непрочитанное сообщение guest » 2015-03-11 19:25:40

Alucard писал(а):Есть сервер, файлопомойка/торрентокачалка Q9550/SuperMicro X7SBL-LN1/8Gb c FreeBSD 10.0-RELEASE #0 r260789
и на нем диски

Код: Выделить всё

<TOSHIBA DT01ACA300 MX6OABB0>      at scbus0 target 0 lun 0 (ada0,pass0)
<TOSHIBA DT01ACA300 MX6OABB0>      at scbus2 target 0 lun 0 (ada1,pass1)
<TOSHIBA DT01ACA300 MX6OABB0>      at scbus3 target 0 lun 0 (ada2,pass2)
<Hitachi HUA723020ALA640 MK7OAA10>  at scbus5 target 0 lun 0 (ada3,pass3)
<WDC WD15EADS-00P8B0 01.00A01>     at scbus6 target 0 lun 0 (ada4,pass4)
<Hitachi HDS722020ALA330 JKAOA3MA>  at scbus7 target 0 lun 0 (ada5,pass5)
<Hitachi HDS722020ALA330 JKAOA3MA>  at scbus8 target 0 lun 0 (ada6,pass6)
<Hitachi HDS723020BLA642 MN6OA580>  at scbus9 target 0 lun 0 (ada7,pass7)
<Hitachi HDS722020ALA330 JKAOA3MA>  at scbus10 target 0 lun 0 (ada8,pass8)
на ada3 очень быстро растет атрибут UDMA_CRC_Error_Count - что вроде бы говорит о неисправном шлейфе - но сегодня сменил шлейфы на новые SATA 6G (c защелками) и за сегодня этот атрибут вырос с 2200 до 2740.. на втором диске ошибки происходят очень сильно реже..

Блок питания нормальный - Thermaltake 650w - да и остальные диски без проблем.. вот еще что настораживает - оба диска из серии 7к3000, остальные 7к2000, тошибы и вд грин чувствуют себя прекрасно..

Что еще можно попробовать?.. завтра попробую поменять порт в который подключен диск.. и посмотреть будут ли ошибки на том же диске или нет..
1) 9 дисков, а он про какой-то там "Thermaltake 650w" лепечет, я в фирменных серверах для такого
кол-ва дисков не встречал БП подобной мощности, а там качественные APC. Вру - для 2.5" БП 650Вт подойдет.

2) только ada3 из линейки Ultrastar, ada7 - это Desktop !

3) охлаждение и положение дисков смотрите !

ps. сначала понапихают дисков в тауэры, потом думать начинают...

Аватара пользователя
f_andrey
майор
Сообщения: 2651
Зарегистрирован: 2007-12-26 1:22:58
Откуда: СПб
Контактная информация:

Uncorrectable parity CRC error

Непрочитанное сообщение f_andrey » 2015-03-11 19:28:15

undefined писал(а): Ну и можно через dd снять образ в файл или на другой диск аналогичного объема.
Тут уже скорее всего http://www.freshports.org/sysutils/ddrescue/
Если ваша тема перенесена, то смотри http://forum.lissyara.su/viewtopic.php?f=1&t=32308

Аватара пользователя
Alucard
ефрейтор
Сообщения: 54
Зарегистрирован: 2007-05-08 21:34:14
Контактная информация:

Uncorrectable parity CRC error

Непрочитанное сообщение Alucard » 2015-03-11 20:10:36

у Вас не корректируемые ошибки на дисках, а Вы fsck запускаете?!
на момент запуска у ada2 (Toshiba 3Tb) был идеальный смарт.. а вот у ada3 и ada7 рос параметр UDMA_CRC_Error_Count.. и на ada2 он был запущен для профилактики..

а вот ada3 проверяется в Victoria - уже 79% и нет ни одного бэда (даже зеленых нету).. поверхность идеальная.. так что все таки наверное шлейф (ada3, ada7)..
BAD'ы могут быть реаллокированы лишь во время ЗАПИСИ.
так в том и дело :) удивительно это - при первом чтении растет Seek_Error_Rate и есть "плохо читаемые" сектора, а повторно на чтение эта область идельна.. (это все про ada2)
охлаждение и положение дисков смотрите !
ps. сначала понапихают дисков в тауэры, потом думать начинают...
даже в жару летом выше 55 не греются.. продув в корпусе хороший.. а вот и сам корпус, он кстати Full-Tower http://market.yandex.ru/product/1631301 ... track=char

Отправлено спустя 9 минут 57 секунд:
диски в 3.5 отсеках поставлены через один, расстояние большое + напротив 120 вентилятор.. в 5.25 отсеки установлены через переходники + охлаждение, тоже расстояние между дисками большое, вплотную не установлены.. да и вся эта конструкция уже давно и успешно работает.. один раз была таже проблема с UDMA_CRC_Error_Count - поменял у тех дисков шлейфы на SATA 6G и все ушло (это наверное года полтора назад было), у тех двух дисков просто старые шлейфа оставались, наверное пришло время менять..

guest
проходил мимо

Uncorrectable parity CRC error

Непрочитанное сообщение guest » 2015-03-11 23:33:54

Alucard писал(а): даже в жару летом выше 55 не греются.. продув в корпусе хороший.. а вот и сам корпус, он кстати Full-Tower http://market.yandex.ru/product/1631301 ... track=char

Отправлено спустя 9 минут 57 секунд:
диски в 3.5 отсеках поставлены через один, расстояние большое + напротив 120 вентилятор.. в 5.25 отсеки установлены через переходники + охлаждение, тоже расстояние между дисками большое, вплотную не установлены.. да и вся эта конструкция уже давно и успешно работает.. один раз была таже проблема с UDMA_CRC_Error_Count - поменял у тех дисков шлейфы на SATA 6G и все ушло (это наверное года полтора назад было), у тех двух дисков просто старые шлейфа оставались, наверное пришло время менять..
UDMA CRC обычно при нагреве - плывет поверхность, бывает что проблема в шлейфе
55 градусов - это нонсенс для _холодных_ Hitachi (это можно _назвать_ нормой для Seagate)
(понятно что это было летом, но судя по всему БЫЛО, что ж Вы хотите...)

В корпус про который Вы написали - два вентилятора, смеетесь, никогда с большим кол-вом
дисков не работали? Никогда файловые сервера не видели?

Хоть SATA 6 и должны без проблем договариваться по скорости с SATA контроллером, не всегда
это успешно.

smartctl в руки и short + long тест + время отработки в часах, на какие параметры SMART обратить
внимание - расписано в интернете.

ps. Все что когда-то, работало успешно, перестает работать, и озаботтесь реальным БП на 850Вт
хотя бы.

Аватара пользователя
Alucard
ефрейтор
Сообщения: 54
Зарегистрирован: 2007-05-08 21:34:14
Контактная информация:

Uncorrectable parity CRC error

Непрочитанное сообщение Alucard » 2015-03-12 1:04:16

undefined писал(а): В корпус про который Вы написали - два вентилятора, смеетесь, никогда с большим кол-вом
дисков не работали? Никогда файловые сервера не видели?
а кто сказал что их сейчас то там два?.. два в комплекте с завода.. 4 120 там.. два дополнительных стоят в отсеках 5.25 прямо напротив дисков.. все корзины с дисками продуваются хорошо..
undefined писал(а): Хоть SATA 6 и должны без проблем договариваться по скорости с SATA контроллером, не всегда
это успешно.
непонял?.. сата 6 диски висят на сата 6 контроллере, сата 3 диски на чипсетном.. и по скоростям все там ок..

а теперь насчет ada2 c запредельным Seek_Error_Rate
вот так было при первом скане:
поверхность
Изображение
график скорости
Изображение
диск на красных и коричневых постукивал..

а вот так стало после теста чтения (да, да чтения, ниже будет скрин окна последовательности тестов)
поверхность (два оранжевых из за того что во время теста нажал GET SMART)
Изображение
график скорости
Изображение
вся жесть была на первой 1/3 диска, так что второй раз остальные нормальные 2/3 тестировать нет смысла..

лог выполнения тестов - два раза тест на чтение..
Изображение

смарт после двойного чтения (к сожалению до неуспел сделать скрин, но там был завален 67 атрибут)
Изображение


далее поставил диск на сервер - fcsk -y /dev/ufsid/disk_id и он радостно сообщил "could not determine filesystem" далее fcsk -y -t ufs /dev/ufsid/disk_id - File system marked clean
все файлы на месте, сделал рехеш около 100Гб - ошибок нет..

ada3 и ada7 проверил викторией - все с идеальной поверхностью, даже зеленых нету (<100ms)..

но радость длилась не долго - загрузил сервер, поработало минут 20, на ada3 повалили ошибки, ушел в кернел паник и после перезагрузки повис на лоадере..

при этом из БП было какое-то шипение.. завтра буду разбирать.. наверное конды повзрывались.. старый БП уже.. наверное лет 7..

Отправлено спустя 58 минут 40 секунд:
55 градусов - это нонсенс для _холодных_ Hitachi (это можно _назвать_ нормой для Seagate)
55 градусов в пике это нормально.. по менинию hitachi в том числе.. ))
deskstar:

Код: Выделить всё

Environmental (operating)
Ambient temperature  5 to 60 C
http://www.hgst.com/tech/techlib.nsf/te ... 000_ds.pdf - официальный pdf
http://www.nix.ru/autocatalog/hdd_ibm_h ... 11994.html

ultrastar:

Код: Выделить всё

Environmental (operating)
Ambient temperature 5 to 60 C 
http://www.hgst.com/tech/techlib.nsf/te ... 000_ds.pdf - официальный pdf
http://www.nix.ru/autocatalog/hdd_ibm_h ... 21558.html

теперь что касается БП вот тесты жестких дисков, в том числе 7к3000 deskstar/ultrastar: http://www.hardwareluxx.ru/index.php/ar ... l?start=16 (там кстати и про температуру есть)
у ultrastar пиковое потребление под нагрузкой 11 ватт у deskstar 7.4, но пусть будет что у всех 9 дисков по 11 ватт (да если они все одновременно что-то перезаписывать будут) 9*11=99 ватт, пиковая в Core Quad 9550 95W (а проц там редко когда более 20% занят), пусть на материнку, куллеры и память тоже 100W будет - всего получается 99 + 95 + 100 = 294W так что нормального испpавного 650W блока там хватает с запасом.. более чем двухкратным..

guest
проходил мимо

Uncorrectable parity CRC error

Непрочитанное сообщение guest » 2015-03-12 11:17:51

Вы спрашивали что происходит? Вам указали варианты
Сейчас Вы что делаете? Себя уговариваете или что?

Вы никогда не видели как горят голдовые БП на 1400 в файловых серверах с 20'ю дисками 3.5"
и выгорают крутые рейдовые Adaptec'и вместе и из за Seagate дисков, а я видел и знаю
как спецы Adaptec'а вместе с Seagate чешут репу и пишут спец.firmware для дисков чтобы
разнести по времени раскрутку шпинделей во время включения ибо есть в физике и
электротехнике понятие переходные процессы.
Ток во время переходных процессов большой, отчего горели БП, контроллеры и диски при
включении. Все это из-за 3.5" дисков Seagate, впрочем, выяснили что и с другими будут проблемы,
исключение 2.5", иное энергопотребление.

Потребляемую мощность дисков он посчитал... Про БП уже все было сказано, про контрольные
суммы при нагреве и шлейфы тоже, про short и long тоже, про время работы - тоже, делайте
выводы и принимайте решения. И да, пропускной способности ICH9 для интенсивной работы
с приличным I/O будет мало.

Аватара пользователя
Alucard
ефрейтор
Сообщения: 54
Зарегистрирован: 2007-05-08 21:34:14
Контактная информация:

Uncorrectable parity CRC error

Непрочитанное сообщение Alucard » 2015-03-20 12:53:28

Поменял БП - все глюки ушли..)) диски тоже впорядке..

Код: Выделить всё

13:50  up 7 days, 17:22
UDMA_CRC_Error_Count - параметр в SMART больше не увеличивается..

Старый БП неисправен (хотя конденсаторы на вид не взорвавшиеся) - глючит даже на более слабой системе..

guest
проходил мимо

Uncorrectable parity CRC error

Непрочитанное сообщение guest » 2015-03-21 19:26:35

Alucard писал(а):Поменял БП - все глюки ушли..)) диски тоже впорядке..

Код: Выделить всё

13:50  up 7 days, 17:22
UDMA_CRC_Error_Count - параметр в SMART больше не увеличивается..

Старый БП неисправен (хотя конденсаторы на вид не взорвавшиеся) - глючит даже на более слабой системе..
вот и славно, запишите в копилку набор пунктов из-за чего могут быть проблемы с дисками,
вещь полезная.

У современных десктопных БП несколько развязок, благодаря которым они не горят целиком,
но мощность, обычно, теряется в 1.5-2 раза.