VmWare теряет диск

VirtualBox, QEMU, ESX/ESXi и прочия
Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Аватара пользователя
Platinum
рядовой
Сообщения: 25
Зарегистрирован: 2009-10-31 13:16:52
Откуда: MSK

VmWare теряет диск

Непрочитанное сообщение Platinum » 2010-01-26 16:07:29

Доброго дня всем! :)
На балконе для экспериментов стоит hand-made сервачок на базе AMD Phenom II x3 720 на котором крутится VmWare ESXi 4.0. А под ним несколько фряшек 7.2 p4 и 8.0.
Чисто случайно заглянул в последние логи одного виртуального сервера с 8кой, и заметил что по крайней мере последние 2 дня происходит какая то фигня с жестким диском. Целый день 25 го и вот сейчас, 26 в логи сыпется такое:

Код: Выделить всё

Jan 26 14:45:15 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:15 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:15 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:15 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:15 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:15 fresh kernel: (da0:mpt0:0:0:0): Retrying Command (per Sense Data)
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retrying Command (per Sense Data)
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retrying Command (per Sense Data)
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retrying Command (per Sense Data)
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retries Exhausted
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retrying Command (per Sense Data)
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retrying Command (per Sense Data)
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retrying Command (per Sense Data)
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retrying Command (per Sense Data)
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): READ(10). CDB: 28 0 0 2d 61 3a 0 0 18 0 
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): CAM Status: SCSI Status Error
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): SCSI Status: Check Condition
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): MEDIUM ERROR asc:11,4
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Unrecovered read error - auto reallocate failed
Jan 26 14:45:42 fresh kernel: (da0:mpt0:0:0:0): Retries Exhausted
Причем через разные промежутки времени.

VmWare же как оказалось позже еще с 18 января ругалась, фрагмент:
vms.png
Получается что доступ к диску на мгновение пропадает, а потом назад возвращается. Диску месяца два от силы, 2.5" Seagate Momentus ST9250315AS 250Gb.
Вместе с ним стоят еще 5 дисков 3.5", но у них никаких проблем нет. Ругается только на 2.5". Причем ошибки сыпятся именно одному серверу - на других все абсолютно чисто.

В чем может быть косяк и как с ним боротся? Диск битый или может быть контроллер глючит? Думал мб от холода, хотя у моментуса заявлено как бы рабочая температура от 0 до +60, а на балконе ну точно не ниже +10 +15 + я как запустил в декабре еще, так ни разу не выключал еще. И остальные диски не возникают, хотя есть по возрасту и овер 3 года. Уж очень не охота все это дело выключать и снимать/менять диск. Можно как нибудь штатными средствами продиагностировать?

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

Аватара пользователя
Fastman
ст. лейтенант
Сообщения: 1236
Зарегистрирован: 2006-07-07 10:20:38
Откуда: Минск. РБ

Re: VmWare теряет диск

Непрочитанное сообщение Fastman » 2010-01-26 17:20:15

Код: Выделить всё

Unrecovered read error - auto reallocate failed
Возможнонам говорит о куске битом на винте. Выход один - отчекать диск по максимуму и поглядеть на присутствие битых кластеров.
Если есть и их не исправило - ремапить.
Главное в жизни здоровье и любовь, остальное я все куплю.

Аватара пользователя
Platinum
рядовой
Сообщения: 25
Зарегистрирован: 2009-10-31 13:16:52
Откуда: MSK

Re: VmWare теряет диск

Непрочитанное сообщение Platinum » 2010-01-27 20:57:31

Эх... видимо придется все таки снимать... :(
Вообще, в логах еще вот это - за каждые из дней, при этом offset всегда один и тот же.

Код: Выделить всё

Jan 27 14:01:18 fresh kernel: g_vfs_done():da0s1d[READ(offset=383729664, length=12288)]error = 5
При этом на этот косяк натыкается smbd.

И еще непонятно - когда файловая система смонтирована:

Код: Выделить всё

fresh# fsck -f /var
** /dev/da0s1d (NO WRITE)
** Last Mounted on /var
** Phase 1 - Check Blocks and Sizes
INCORRECT BLOCK COUNT I=35 (24 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=39 (4 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=22845 (4 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=22886 (184 should be 172)
CORRECT? no

INCORRECT BLOCK COUNT I=22906 (16 should be 12)
CORRECT? no

INCORRECT BLOCK COUNT I=45692 (108 should be 100)
CORRECT? no

INCORRECT BLOCK COUNT I=45702 (4 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=45736 (40 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=46089 (176 should be 144)
CORRECT? no

INCORRECT BLOCK COUNT I=46116 (4 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=46125 (4 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=46126 (80 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=46128 (80 should be 0)
CORRECT? no

INCORRECT BLOCK COUNT I=46140 (56 should be 40)
CORRECT? no

** Phase 2 - Check Pathnames
** Phase 3 - Check Connectivity
** Phase 4 - Check Reference Counts
UNREF FILE I=49  OWNER=root MODE=140666
SIZE=0 MTIME=Jan 27 15:47 2010 
CLEAR? no

UNREF FILE  I=50  OWNER=bind MODE=100644
SIZE=5 MTIME=Jan 27 15:38 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=22818  OWNER=smmsp MODE=100660
SIZE=276 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=22837  OWNER=smmsp MODE=100660
SIZE=795 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=22885  OWNER=root MODE=100600
SIZE=276 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=22915  OWNER=root MODE=100600
SIZE=1038 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=45702  OWNER=root MODE=100600
SIZE=0 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=46089  OWNER=root MODE=100644
SIZE=90112 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=46116  OWNER=root MODE=100644
SIZE=0 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=46125  OWNER=root MODE=100644
SIZE=0 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=46126  OWNER=root MODE=100644
SIZE=0 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=46128  OWNER=root MODE=100644
SIZE=0 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

UNREF FILE  I=46140  OWNER=root MODE=100600
SIZE=20480 MTIME=Jan 27 15:47 2010 
RECONNECT? no


CLEAR? no

** Phase 5 - Check Cyl groups
FREE BLK COUNT(S) WRONG IN SUPERBLK
SALVAGE? no

SUMMARY INFORMATION BAD
SALVAGE? no

BLK(S) MISSING IN BIT MAPS
SALVAGE? no

22089 files, 47350 used, 304516 free (5172 frags, 37418 blocks, 1.5% fragmentation)
Но если отмонтировать и опять запустить проверку:

Код: Выделить всё

fresh# fsck -f /var
** /dev/da0s1d
** Last Mounted on /var
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3 - Check Connectivity
** Phase 4 - Check Reference Counts
** Phase 5 - Check Cyl groups
22085 files, 47334 used, 304689 free (5217 frags, 37434 blocks, 1.5% fragmentation)

***** FILE SYSTEM IS CLEAN *****
И как это понимать? Ошибки есть, но их нет? :st:

Аватара пользователя
Platinum
рядовой
Сообщения: 25
Зарегистрирован: 2009-10-31 13:16:52
Откуда: MSK

Re: VmWare теряет диск

Непрочитанное сообщение Platinum » 2010-01-29 19:59:39

Хм... зарубил всю самбу - ошибок нет и в vmware диск тьфу-тьфу-тьфу пока уже день и не разу не отвалился.. может ли самба приводить к таким косякам? при этом хранилище у нее не на этом диске а на 2х других, на ZFS.

EuGenE
рядовой
Сообщения: 25
Зарегистрирован: 2011-01-20 17:32:36

Re: VmWare теряет диск

Непрочитанное сообщение EuGenE » 2011-02-03 11:56:22

Опять сигейты... У меня на серваке 16 штук двухтерабайтных стоят под FreeNAS'ом и со вчерашнего дня то da15, то da16 подобные штуки выдают, теперь тоже думаю, чё за фигня...