винт решительно собрался по женской линии...
Код: Выделить всё
Nov 4 16:12:30 srv kernel: ad8: TIMEOUT - READ_DMA48 retrying (1 retry left) LBA=580039263
Nov 4 16:12:42 srv kernel: ad8: TIMEOUT - READ_DMA48 retrying (0 retries left) LBA=580039263
Nov 4 16:12:42 srv kernel: ad8: FAILURE - READ_DMA48 timed out LBA=580039263
Nov 4 16:12:42 srv kernel: GEOM_MIRROR: Request failed (error=5). ad8[READ(offset=296980102656, length=65536)]
Nov 4 16:12:42 srv kernel: g_vfs_done():mirror/gm0s1g[READ(offset=271969435648, length=65536)]error = 5
Nov 4 16:12:42 srv kernel: vnode_pager_getpages: I/O read error
и такое:
Код: Выделить всё
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771743
GEOM_MIRROR: Request failed (error=5). ad8[READ(offset=227723132416, length=65536)]
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771743
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771828
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771807
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771828
WARNING: /home was not properly dismounted
/home: mount pending error: blocks 20708 files 70
При чем очень большая вероятность что второй винт такойже дохлый. Я недавно создавал топик
http://forum.lissyara.su/viewtopic.php?f=8&t=12157
с вопросом почему с ad8 читает быстрее чем с ad10,
на ad10 видел такиеже большие тайминги записи.
После того как ад10 удалил из рейда все попустило, но через пол дня все рухнуло с вышеприведеннными ошибками.
фсцк в сингл моде не помог.
сейчас в сингл моде делается ребилд зеркала на ад10.
Завтра человек едет в датацентр, будет пытаться на новые винты задампить систему.
Контролер по памяти ICH7 sata300
винты WD 320 (sata 150)
Код: Выделить всё
smartctl -a /dev/ad8
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0003 196 188 021 Pre-fail Always - 5158
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 44
5 Reallocated_Sector_Ct 0x0033 198 198 140 Pre-fail Always - 12
7 Seek_Error_Rate 0x000f 200 200 051 Pre-fail Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 7174
10 Spin_Retry_Count 0x0013 100 253 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0013 100 253 051 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 43
194 Temperature_Celsius 0x0022 118 001 000 Old_age Always - 32
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0009 100 253 051 Pre-fail Offline - 0
квма нет, это все из сохраненных записей.
Более всего меня огорчает, что был вполне себе работающий рейд, никакой особой ругани в логи замечено не было.
Потом начались проблемы, наблюдение за гстатом показзало, что с ad10 читтает и пишет гораздо медленней,
Код: Выделить всё
gstat:
dT: 0.503s w: 0.500s
L(q) ops/s r/s kBps ms/r w/s kBps ms/w %busy Name
0 10 10 342 16.2 0 0 0.0 12.6| ad8
437 76 8 171 2850.6 68 1054 2708.6 133.2| ad10
после проб разных режимов балансировки, было решено временно выкинуть ад10 из рейда как сбойный.
После этого все отлично проработало пол дня и сдохло.
Выходит что у меня штоли 2 полудохлых винта в рейде болтались?
как такое детектить, почему оно явно не ругалось, можно ли че проверять симптомы умирания винтов, вообще каковы они?