Отваливается SSD в HP SL230 G8
Добавлено: 2015-08-13 10:54:25
Доброе утро!
Имеется арендованный сервер HP SL230 G8 с четырьмя дисками: 2 HDD и 2 SSD (OCZ-VECTOR 3.0), на нём стоит FreeBSD 10.1-RELEASE. Встроенный RAID-сонтроллер отключён (FreeBSD его не понимает). Диски объеденены через gmirror в два зеркала: одно из HDD, другое из SSD. С HDD проблем нет, а вот один из SSD время от времени отваливается вот с такими сообщениями:
После этого camcontrol rescan диск не подхватывает, но после холодного рестарта диск снова виден, может быть подмонтирован и работает нормально от нескольких часов до полутора дней. А потом опять так же отваливается. Отваливается всегда второй (по порядку создания) диск в софтовом зеркале. Т. е. в данном случае я сначала добавил в зеркало da3, а потом da2 — и вот da2 отваливается.
Это совершенно точно не проблема диска. По моей просьбе меняли уже оба SSD, а потом поменяли сам сервер с сохранением дисков. Проблема не исчезла. То есть, это либо какая-то несовместимость драйверов с этим железом, либо несовместимость железа внутри сервера. Я бы ставил на первое, но не понимаю, как это определить и починить.
Где-то в сети вычитал намёк, что может быть проблема с AHCI и вроде бы она лечится через установку hint.achi.0.msi="1". Добавил — не помогает.
Помогите, пожалуйста.
Имеется арендованный сервер HP SL230 G8 с четырьмя дисками: 2 HDD и 2 SSD (OCZ-VECTOR 3.0), на нём стоит FreeBSD 10.1-RELEASE. Встроенный RAID-сонтроллер отключён (FreeBSD его не понимает). Диски объеденены через gmirror в два зеркала: одно из HDD, другое из SSD. С HDD проблем нет, а вот один из SSD время от времени отваливается вот с такими сообщениями:
Код: Выделить всё
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): WRITE(10). CDB: 2a 00 34 33 31 cf 00 00 40 00
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): CAM status: SCSI Status Error
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): SCSI status: Check Condition
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): SCSI sense: NOT READY asc:4,0 (Logical unit not ready, cause not reportable)
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): Retrying command (per sense data)
(повтор 5 раз)
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): Error 5, Retries exhausted
Aug 13 03:47:56 bravo kernel: GEOM_MIRROR: Request failed (error=5). da2[WRITE(offset=448394403328, length=32768)]
Aug 13 03:47:56 bravo kernel:
Aug 13 03:47:56 bravo kernel: GEOM_MIRROR: Device gm1: provider da2 disconnected.
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): SYNCHRONIZE CACHE(10). CDB: 35 00 00 00 00 00 00 00 00 00
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): CAM status: SCSI Status Error
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): SCSI status: Check Condition
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): SCSI sense: NOT READY asc:4,0 (Logical unit not ready, cause not reportable)
Aug 13 03:47:56 bravo kernel: (da2:mps0:0:26:0): Retrying command (per sense data)
(повтор 8 раз)
Aug 13 03:47:57 bravo kernel: (da2:mps0:0:26:0): Error 5, Retries exhausted
Aug 13 03:48:27 bravo kernel: da2 at mps0 bus 0 scbus0 target 26 lun 0
Aug 13 03:48:27 bravo kernel: da2: <ATA OCZ-VECTOR 3.0> s/n OCZ-615460R76G72A5I7 detached
Aug 13 03:48:27 bravo kernel: (da2:mps0:0:26:0): Periph destroyed
Это совершенно точно не проблема диска. По моей просьбе меняли уже оба SSD, а потом поменяли сам сервер с сохранением дисков. Проблема не исчезла. То есть, это либо какая-то несовместимость драйверов с этим железом, либо несовместимость железа внутри сервера. Я бы ставил на первое, но не понимаю, как это определить и починить.
Где-то в сети вычитал намёк, что может быть проблема с AHCI и вроде бы она лечится через установку hint.achi.0.msi="1". Добавил — не помогает.
Помогите, пожалуйста.