Страница 1 из 1

Зависает сервер (проблема с диском)

Добавлено: 2010-07-01 22:49:32
Dimon5
Проблема следующая
Есть сервер с двумя дисками объемом по 1 Тб объединенных в софтовый (gmirror) RAID-1.
Сервер удаленный находится в ДЦ.

Вчера завис со следующими последними записями в логах:

Код: Выделить всё

Jun 30 19:02:59 dimon kernel: ad16: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=1061955487
Jun 30 19:03:37 dimon kernel: ad16: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=747164447
После перезагрузки сервера, и сканирования файловой системы загрузился, но RAID остался целлым, тоесть COMPLETE.

Сегодня, снова практически через сутки после вчерашнего сервер снова завис выдавая в лог ту же ошибку:

Код: Выделить всё

Jul  1 19:51:50 dimon kernel: ad16: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=721154719
Jul  1 19:52:56 dimon kernel: ad16: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=733276607
Jul  1 19:55:09 dimon kernel: ad16: TIMEOUT - READ_DMA48 retrying (1 retry left) LBA=726791775
Как видно по логам, есть проблемы со вторым диском (зеркалом) ad16.
Что могут означать эти ошибки? Стоит ли просить заменить диск?
Прошу помочь советом.

Re: Зависает сервер (проблема с диском)

Добавлено: 2010-07-01 23:03:39
Гость
проблемы явно не системы а диска
я бы заменил

Re: Зависает сервер (проблема с диском)

Добавлено: 2010-07-02 0:46:25
Dimon5
Вот еще скриншот с KVM в момент когда сервер завис.
Видно, что пошли строки bad block
Изображение

Re: Зависает сервер (проблема с диском)

Добавлено: 2010-07-02 0:56:16
Dimon5
Изображение

Re: Зависает сервер (проблема с диском)

Добавлено: 2010-07-02 12:07:21
Alex Keda
вывод

Код: Выделить всё

df -h
mount
smart что говорит?

fsck принудительно прогоните

Re: Зависает сервер (проблема с диском)

Добавлено: 2010-07-02 15:59:37
Dimon5
Вот показания S.M.A.R.T. со второго начавшего глючить диска.

Код: Выделить всё

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   206   197   021    Pre-fail  Always       -       4683
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       54
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   092   092   000    Old_age   Always       -       6033
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       52
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       54
194 Temperature_Celsius     0x0022   116   089   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       47
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0