disk, большие очередя и время записи\чтения

Решение проблем связванных с работой железа. Проблемы программно-аппаратной совместимости.
Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
paix
лейтенант
Сообщения: 863
Зарегистрирован: 2007-09-24 12:41:05
Откуда: dn.ua
Контактная информация:

disk, большие очередя и время записи\чтения

Непрочитанное сообщение paix » 2008-11-04 10:53:01

Винт переодически начинает очень медленно работать. В это время все начинает потихоьку дохнуть
Вывод gstat ниже.
По top -mio ничего подозрительного не видно.
Это хостинг, причем мускиль и юзерские данные на одном разделе.
Только один диск в зеркале, т.к. недавно выкинул второй диск из зеркала с подобными симптомами, на время попустило а сейчас опять началось.

Как можно найти интенсивные диск I\O приложения?
Чем можно вразумить винт?

Быть может ошибки программного характера или очень большая фрагментация....что посоветуте?

Код: Выделить всё

dT: 5.007s  w: 5.000s
 L(q)  ops/s    r/s   kBps   ms/r    w/s   kBps   ms/w   %busy Name
   46     45      2     36 5969.6     44    700 6104.5  100.4| ad8
   46     45      2     36 5969.7     44    700 6106.3  100.4| mirror/gm0
   46     45      2     36 5969.7     44    700 6106.8  100.4| mirror/gm0s1
   38     45      2     36 5969.7     44    700 6107.3  100.4| mirror/gm0s1g

dT: 1.001s  w: 1.000s
 L(q)  ops/s    r/s   kBps   ms/r    w/s   kBps   ms/w   %busy Name
  146     17      0      0    0.0     17    272 11747.5  106.0| ad8
  146     17      0      0    0.0     17    272 11751.4  106.0| mirror/gm0
  146     17      0      0    0.0     17    272 11752.2  106.0| mirror/gm0s1
  142     17      0      0    0.0     17    272 11754.1  106.0| mirror/gm0s1g

dT: 1.004s  w: 1.000s
 L(q)  ops/s    r/s   kBps   ms/r    w/s   kBps   ms/w   %busy Name
  410     46      0      0    0.0     46    733 1782.3  106.0| ad8
  410     46      0      0    0.0     46    733 1783.1  106.0| mirror/gm0
  410     46      0      0    0.0     46    733 1783.2  106.0| mirror/gm0s1
  399     46      0      0    0.0     46    733 1783.4  106.0| mirror/gm0s1g  
With best wishes, Sergej Kandyla

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

paradox
проходил мимо
Сообщения: 11620
Зарегистрирован: 2008-02-21 18:15:41

Re: disk, большие очередя и время записи\чтения

Непрочитанное сообщение paradox » 2008-11-04 21:05:50

что хоть за винт
и что за контроллер


помниться как то можно было отчеты смарт посмотреть
ну и отчеты биоса если такое есть можно посмотреть

paix
лейтенант
Сообщения: 863
Зарегистрирован: 2007-09-24 12:41:05
Откуда: dn.ua
Контактная информация:

Re: disk, большие очередя и время записи\чтения

Непрочитанное сообщение paix » 2008-11-04 23:01:28

винт решительно собрался по женской линии...

Код: Выделить всё

Nov  4 16:12:30 srv kernel: ad8: TIMEOUT - READ_DMA48 retrying (1 retry left) LBA=580039263
Nov  4 16:12:42 srv kernel: ad8: TIMEOUT - READ_DMA48 retrying (0 retries left) LBA=580039263
Nov  4 16:12:42 srv kernel: ad8: FAILURE - READ_DMA48 timed out LBA=580039263
Nov  4 16:12:42 srv kernel: GEOM_MIRROR: Request failed (error=5). ad8[READ(offset=296980102656, length=65536)]
Nov  4 16:12:42 srv kernel: g_vfs_done():mirror/gm0s1g[READ(offset=271969435648, length=65536)]error = 5
Nov  4 16:12:42 srv kernel: vnode_pager_getpages: I/O read error
и такое:

Код: Выделить всё

ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771743
GEOM_MIRROR: Request failed (error=5). ad8[READ(offset=227723132416, length=65536)]
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771743
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771828
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771807
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=40<UNCORRECTABLE> LBA=444771828
WARNING: /home was not properly dismounted
/home: mount pending error: blocks 20708 files 70

При чем очень большая вероятность что второй винт такойже дохлый. Я недавно создавал топик
http://forum.lissyara.su/viewtopic.php?f=8&t=12157

с вопросом почему с ad8 читает быстрее чем с ad10,
на ad10 видел такиеже большие тайминги записи.
После того как ад10 удалил из рейда все попустило, но через пол дня все рухнуло с вышеприведеннными ошибками.

фсцк в сингл моде не помог.
сейчас в сингл моде делается ребилд зеркала на ад10.

Завтра человек едет в датацентр, будет пытаться на новые винты задампить систему.

Контролер по памяти ICH7 sata300
винты WD 320 (sata 150)

Код: Выделить всё

smartctl -a /dev/ad8

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
 1 Raw_Read_Error_Rate     0x000f   200   200   051    Pre-fail  Always       -       0
 3 Spin_Up_Time            0x0003   196   188   021    Pre-fail  Always       -       5158
 4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       44
 5 Reallocated_Sector_Ct   0x0033   198   198   140    Pre-fail  Always       -       12
 7 Seek_Error_Rate         0x000f   200   200   051    Pre-fail  Always       -       0
 9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       7174
10 Spin_Retry_Count        0x0013   100   253   051    Pre-fail  Always       -       0
11 Calibration_Retry_Count 0x0013   100   253   051    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       43
194 Temperature_Celsius     0x0022   118   001   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0009   100   253   051    Pre-fail  Offline      -       0 
квма нет, это все из сохраненных записей.

Более всего меня огорчает, что был вполне себе работающий рейд, никакой особой ругани в логи замечено не было.
Потом начались проблемы, наблюдение за гстатом показзало, что с ad10 читтает и пишет гораздо медленней,

Код: Выделить всё

gstat:
dT: 0.503s  w: 0.500s
L(q)  ops/s    r/s   kBps   ms/r    w/s   kBps   ms/w   %busy Name
   0     10     10    342   16.2      0      0    0.0   12.6| ad8
 437     76      8    171 2850.6     68   1054 2708.6  133.2| ad10 
после проб разных режимов балансировки, было решено временно выкинуть ад10 из рейда как сбойный.
После этого все отлично проработало пол дня и сдохло.

Выходит что у меня штоли 2 полудохлых винта в рейде болтались?
как такое детектить, почему оно явно не ругалось, можно ли че проверять симптомы умирания винтов, вообще каковы они?
Последний раз редактировалось paix 2008-11-04 23:20:52, всего редактировалось 1 раз.
With best wishes, Sergej Kandyla

Аватара пользователя
Alex Keda
стреляли...
Сообщения: 35332
Зарегистрирован: 2004-10-18 14:25:19
Откуда: Made in USSR
Контактная информация:

Re: disk, большие очередя и время записи\чтения

Непрочитанное сообщение Alex Keda » 2008-11-04 23:12:15

paix писал(а):винт решительно собрался по женской линии...

Код: Выделить всё

Nov  4 16:12:30 srv kernel: ad8: TIMEOUT - READ_DMA48 retrying (1 retry left) LBA=580039263
Nov  4 16:12:42 srv kernel: ad8: TIMEOUT - READ_DMA48 retrying (0 retries left) LBA=580039263
Nov  4 16:12:42 srv kernel: ad8: FAILURE - READ_DMA48 timed out LBA=580039263
Nov  4 16:12:42 srv kernel: GEOM_MIRROR: Request failed (error=5). ad8[READ(offset=296980102656, length=65536)]
Nov  4 16:12:42 srv kernel: g_vfs_done():mirror/gm0s1g[READ(offset=271969435648, length=65536)]error = 5
Nov  4 16:12:42 srv kernel: vnode_pager_getpages: I/O read error
Вот о таких вещщах S.M.A.R.T. сообщает заранее. И чё там надампят - ещё большой вопрос... Доводить то такого низя...
Убей их всех! Бог потом рассортирует...

paix
лейтенант
Сообщения: 863
Зарегистрирован: 2007-09-24 12:41:05
Откуда: dn.ua
Контактная информация:

Re: disk, большие очередя и время записи\чтения

Непрочитанное сообщение paix » 2008-11-04 23:37:33

да уже бился головой об холодильник :cz2:
Большой ошибкой было не придавать должного внимания апаратным вопросам.

Винты вроде работали, ошибки по типу вышеприведенных начались после ребута.
Во время работы только видел подозрительно большие тайминги записи\чтения.

По той инфе (smartctl) что я привел, можно заключить что винту приходит балалайка?
Или это может быть сделано только во время тестов смарта?

В итоге, я имею только один диск в рейде (ад8) и тот сбойный.
на ад10 - недобилденное зеркало (сейчас билдится в процессе но очень медленно, чувствую оно так и не закончит ребилдится к приезду товарища.)

думаю попробовать загрузиться с какогонибудь live-cd
и сделать dd if=/dev/ad8 of=/dev/{new_disk} bs=1m
дальше если все ок, то вместо ад8 ставлю новый винт, загружаюсь и начинаю билдить зеркало (на второй новый винт...)

А вот если же dd не прокатит....
тогда блин даже не знаю.
Разве что попробовать тоже с лайвсд и сделать dump\restore хоть инфу какуюто спасти...
Еще последний вариант - понизить скорость винта атаконтролом и снова попробовать, только сомневаюсь что это поможет.....
With best wishes, Sergej Kandyla

paradox
проходил мимо
Сообщения: 11620
Зарегистрирован: 2008-02-21 18:15:41

Re: disk, большие очередя и время записи\чтения

Непрочитанное сообщение paradox » 2008-11-05 2:27:02

я так и не понял что там за винт и что там за контроллер

Alteron
сержант
Сообщения: 230
Зарегистрирован: 2008-07-21 9:35:11

Re: disk, большие очередя и время записи\чтения

Непрочитанное сообщение Alteron » 2008-11-07 16:07:54

У меня подобная байда творится со всеми винтами вестерн. Примерно после года работы все операции с ними идут с дикими таймингами.
Пробовал во фре dd... Всё замечательно, линейная скорость записи на винт порядка 60-70Мб/с. Ставлю винт в систему, больше 20Мб/с по гигабитной сети писать не получается. Рядом стоит самсунг, 70-80Мб/с даёт без проблем.
Всё одинкаово происходит и с сата, и с IDE винтами. СМАРТ чистый, сам не понимаю, что происходит.
Дома подцепил вестерновский IDE-шный 250-ник для хранения всякой байды, которая не требует высокой скорости доступа. Он после снижения скорости стоит уже больше года. Смарт чистый, информация целая.
Я, прям, совсем в вестерне разочаровался.

Человек из одной конторы, который профессионально занимается восстановлением информации с умерших винтов, говорит, что у вестернов дохнут головки, и данные симптомы первый признак, что винт умрёт.
Измеритель верёвочками.

Аватара пользователя
Alex Keda
стреляли...
Сообщения: 35332
Зарегистрирован: 2004-10-18 14:25:19
Откуда: Made in USSR
Контактная информация:

Re: disk, большие очередя и время записи\чтения

Непрочитанное сообщение Alex Keda » 2008-11-07 16:23:22

вестерн - единственная контора которая занимается ТОЛЬКО винтами.
И винты у них неплохие... У меня проблем не было....
Так что - чё-то тут не чисто...
Убей их всех! Бог потом рассортирует...

paix
лейтенант
Сообщения: 863
Зарегистрирован: 2007-09-24 12:41:05
Откуда: dn.ua
Контактная информация:

Re: disk, большие очередя и время записи\чтения

Непрочитанное сообщение paix » 2008-11-07 17:59:47

моя история завершилась тем, что заменили оба винта в рейде, сделав дамп через dd.
Пару дней полет нормальный, винты юзаются одинаково, загрузка небольшая.

это инфа по поводу контролеров и дисков.

Код: Выделить всё

: dmesg |grep ata
atapci0: <ITE IT8211F UDMA133 controller> port 0xc800-0xc807,0xc400-0xc403,0xc000-0xc007,0xb800-0xb803,0xb400-0xb40f irq 19 at device 4.0 on pci1
atapci1: <Intel ICH7 UDMA100 controller> port 0x1f0-0x1f7,0x3f6,0x170-0x177,0x376,0xffa0-0xffaf at device 31.1 on pci0
atapci2: <Intel ICH7 SATA300 controller> port 0xa800-0xa807,0xa400-0xa403,0xa000-0xa007,0x9800-0x9803,0x9400-0x940f irq 17 at device 31.2 on pci0
ad8: 305245MB <SAMSUNG HD321KJ CP100-12> at ata4-master SATA150
ad10: 305245MB <SAMSUNG HD321KJ CP100-12> at ata5-master SATA150
Старые кстати были WD 320...отжили.

ЗЫ. на практике вижу что все винты дохнут, разных моделей и марок. Главное следить за этим процессом.
With best wishes, Sergej Kandyla