Зависает сервер (проблема с диском)

Решение проблем связванных с работой железа. Проблемы программно-аппаратной совместимости.
Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Dimon5
рядовой
Сообщения: 26
Зарегистрирован: 2009-12-05 3:44:34

Зависает сервер (проблема с диском)

Непрочитанное сообщение Dimon5 » 2010-07-01 22:49:32

Проблема следующая
Есть сервер с двумя дисками объемом по 1 Тб объединенных в софтовый (gmirror) RAID-1.
Сервер удаленный находится в ДЦ.

Вчера завис со следующими последними записями в логах:

Код: Выделить всё

Jun 30 19:02:59 dimon kernel: ad16: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=1061955487
Jun 30 19:03:37 dimon kernel: ad16: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=747164447
После перезагрузки сервера, и сканирования файловой системы загрузился, но RAID остался целлым, тоесть COMPLETE.

Сегодня, снова практически через сутки после вчерашнего сервер снова завис выдавая в лог ту же ошибку:

Код: Выделить всё

Jul  1 19:51:50 dimon kernel: ad16: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=721154719
Jul  1 19:52:56 dimon kernel: ad16: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=733276607
Jul  1 19:55:09 dimon kernel: ad16: TIMEOUT - READ_DMA48 retrying (1 retry left) LBA=726791775
Как видно по логам, есть проблемы со вторым диском (зеркалом) ad16.
Что могут означать эти ошибки? Стоит ли просить заменить диск?
Прошу помочь советом.

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

Гость
проходил мимо

Re: Зависает сервер (проблема с диском)

Непрочитанное сообщение Гость » 2010-07-01 23:03:39

проблемы явно не системы а диска
я бы заменил

Dimon5
рядовой
Сообщения: 26
Зарегистрирован: 2009-12-05 3:44:34

Re: Зависает сервер (проблема с диском)

Непрочитанное сообщение Dimon5 » 2010-07-02 0:46:25

Вот еще скриншот с KVM в момент когда сервер завис.
Видно, что пошли строки bad block
Изображение


Аватара пользователя
Alex Keda
стреляли...
Сообщения: 35334
Зарегистрирован: 2004-10-18 14:25:19
Откуда: Made in USSR
Контактная информация:

Re: Зависает сервер (проблема с диском)

Непрочитанное сообщение Alex Keda » 2010-07-02 12:07:21

вывод

Код: Выделить всё

df -h
mount
smart что говорит?

fsck принудительно прогоните
Убей их всех! Бог потом рассортирует...

Dimon5
рядовой
Сообщения: 26
Зарегистрирован: 2009-12-05 3:44:34

Re: Зависает сервер (проблема с диском)

Непрочитанное сообщение Dimon5 » 2010-07-02 15:59:37

Вот показания S.M.A.R.T. со второго начавшего глючить диска.

Код: Выделить всё

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   206   197   021    Pre-fail  Always       -       4683
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       54
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   092   092   000    Old_age   Always       -       6033
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       52
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       54
194 Temperature_Celsius     0x0022   116   089   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       47
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0