Страница 1 из 1

Зависает контроллер

Добавлено: 2015-03-29 12:24:09
Harun
Примерно раз в квартал на сервере зависет дисковый контроллер, в журнале появляется ошибка:

Код: Выделить всё

Mar 29 11:11:08 Storage kernel: isci: 1427609468:700992 ISCI Sending reset to device on controller 0 domain 3 CAM index 3
Mar 29 11:11:08 Storage kernel: isci: 1427609468:701950 ISCI isci: bus=0 target=3 lun=0 cdb[0]=35 terminated
И как следствие:

Код: Выделить всё

Mar 29 11:11:08 Storage kernel: (da3:isci0:0:3:0): SYNCHRONIZE CACHE(10). CDB: 35 00 00 00 00 00 00 00 00 00
Mar 29 11:11:08 Storage kernel: (da3:isci0:0:3:0): CAM status: CCB request terminated by the host
Mar 29 11:11:08 Storage kernel: (da3:isci0:0:3:0): Retrying command
SAS Контроллер интегрированный на мат. плате, гугление не помогло, непонятно, аппаратная или программная проблема. Куда копать?

Зависает контроллер

Добавлено: 2015-03-29 12:49:14
mr.fr
не плохо было бы написать модель материнской платы :)

Зависает контроллер

Добавлено: 2015-03-29 13:23:46
Harun
Supermicro X9DR3-LN4F+

Зависает контроллер

Добавлено: 2015-03-29 16:53:32
guest
Harun писал(а):Примерно раз в квартал на сервере зависет дисковый контроллер, в журнале появляется ошибка:

Код: Выделить всё

Mar 29 11:11:08 Storage kernel: isci: 1427609468:700992 ISCI Sending reset to device on controller 0 domain 3 CAM index 3
Mar 29 11:11:08 Storage kernel: isci: 1427609468:701950 ISCI isci: bus=0 target=3 lun=0 cdb[0]=35 terminated
И как следствие:

Код: Выделить всё

Mar 29 11:11:08 Storage kernel: (da3:isci0:0:3:0): SYNCHRONIZE CACHE(10). CDB: 35 00 00 00 00 00 00 00 00 00
Mar 29 11:11:08 Storage kernel: (da3:isci0:0:3:0): CAM status: CCB request terminated by the host
Mar 29 11:11:08 Storage kernel: (da3:isci0:0:3:0): Retrying command
SAS Контроллер интегрированный на мат. плате, гугление не помогло, непонятно, аппаратная или программная проблема. Куда копать?
Только с одним диском da3 такое?
копать в сторону smartctl short & long test da3 (если с кабелем все ok и мощности БП достаточно)

Зависает контроллер

Добавлено: 2015-03-29 18:43:44
Harun
Диски проверим, но странно, даже если диск неисправен, контроллер просто должен давать ошибку чтения/записи, а не останавливаться колом.

Зависает контроллер

Добавлено: 2015-03-29 21:34:33
Alex Keda
и что, на этом виснет сервер? или что?

Зависает контроллер

Добавлено: 2015-03-29 22:51:37
Alpha
Попробуй в биосе выставить:

Advanced --> CPU Configuration --> Power Technology --> Disabled
Advanced --> Chipset Configuration --> Integrated IO Configuration --> Active State Power Management --> [Auto]

Если поможет, отпишись.

Зависает контроллер

Добавлено: 2015-03-30 7:26:56
Harun
Alex Keda писал(а):и что, на этом виснет сервер? или что?
Да, все обращения к ФС блокируются.

Зависает контроллер

Добавлено: 2015-03-30 15:00:16
guest
Harun писал(а):
Alex Keda писал(а):и что, на этом виснет сервер? или что?
Да, все обращения к ФС блокируются.
корпус какой? подключение SAS? backplane?

Зависает контроллер

Добавлено: 2015-04-01 10:12:16
Harun
Платформа SYS-6027R-3RF4+, корпус CSE-825TQ-R740LPB, подключение через backplane

Зависает контроллер

Добавлено: 2015-04-01 12:53:06
guest
Harun писал(а):Платформа SYS-6027R-3RF4+, корпус CSE-825TQ-R740LPB, подключение через backplane
понято.

Хоть BPN-SAS-825TQ и слабоватая backplane - без expander'а, редко сталкивался с выходом из строя.

Виснет:
- полностью сервер?
- вся дисковая система?
- только отдельные FS входят в ступор?
- FS: UFS или ZFS?

В зависимости от верхнего, следует разделить и протестировать:
- посмотреть каким кабелем произведено подключение: контроллер <-> backplane (проверить кабель)
- исключить backplane и подсоединить диски прямо к контроллеру, придется докупить кабель...
- при прямом подключении, нужно взять 8 рабочих дисков, на один систему, другие для тестов
чтения-записи RW и нагрузить дисковую подсистему I/O по самое не балуй на несколько суток

Да, это время, и нужно 8 сторонних дисков, но иначе никак...
После опытов, если контроллер входит в ступор, написать в support Supermicro, для России - служба
поддержки в Голландии, вполне адекватные люди.
Нет желания экспериментировать, пишите сразу и спросите совета как протестировать backplane,
контроллер или что посоветуют.

Нужно два раза прогнать тесты, под FreeBSD 10.1 или 11, и под CentOS или Debian, чтобы
исключить драйвера ОС, в случае hardware проблемы.
И да, ipmi в наличии - смотреть диагностику, журнал, температуру.
Увы, с Intel C60x не сталкивался, а вот интегрированный LSI SATA/SAS очень хорошо себя вел, видимо
скоро предстоит столкнуться с реализацией SATA и SAS от Intel на C60x для бюджетных решений.
По спецификации, у C60x для SAS -> x4 PCIe uplink, должно хватать по ширине для приличных
нагрузок.

Зависает контроллер

Добавлено: 2015-04-01 12:57:40
Harun
Из 8 дисков собран пул ZFS, сама система грузится с отдельного диска, подключенному к отдельному интегрированному контроллеру, виснет только ZFS пул, ipmi мониторю, проблем нет.

К сожалению, тесты нет возможности проводить, задумался о покупке резервного сервера.

Зависает контроллер

Добавлено: 2015-04-01 17:45:10
guest
Harun писал(а):Из 8 дисков собран пул ZFS, сама система грузится с отдельного диска, подключенному к отдельному интегрированному контроллеру, виснет только ZFS пул, ipmi мониторю, проблем нет.

К сожалению, тесты нет возможности проводить, задумался о покупке резервного сервера.
жаль
с ZFS всякое возможно, но в логе конкретно про контроллер only:
был послан reset (скорей всего после timeout) и он не отработал:
"isci: bus=0 target=3 lun=0 cdb[0]=35 terminated" - Bus 0 Lun 0 Target 3

и все же какчество sas'овского кабеля и backplane - могут влиять.

при выборе резерва, посмотрите в сторону материнки с LSI или отдельно контроллер PCIe.

ps. На сегодня, выгодней и надежней брать 2.5" sas диски, это к слову. Ну и платформу под них.

Зависает контроллер

Добавлено: 2015-04-13 13:50:54
Harun
В очередной раз повис сервер, при включении отказался импортировать пул, при этом на корзине горела лампочка и валились сообщения (da3:isci0:0:3:0): CAM status: CCB request terminated by the host. Видимо все-таки кривой диск вешал контроллер. Диск был извлечен из корзины и выброшен, после этого пул был импортирован и всё нормально заработало.

Зависает контроллер

Добавлено: 2015-04-13 14:14:18
guest
Harun писал(а):В очередной раз повис сервер, при включении отказался импортировать пул, при этом на корзине горела лампочка и валились сообщения (da3:isci0:0:3:0): CAM status: CCB request terminated by the host. Видимо все-таки кривой диск вешал контроллер. Диск был извлечен из корзины и выброшен, после этого пул был импортирован и всё нормально заработало.
thx за инфо
поставлю галочку на предмет возможности использования Intel C60x SATA/SAS контроллера, судя по
спецификации, пропускная способность SAS вполне приемлемая.

Зависает контроллер

Добавлено: 2015-04-13 16:01:02
Гость
Harun писал(а):В очередной раз повис сервер, при включении отказался импортировать пул, при этом на корзине горела лампочка и валились сообщения (da3:isci0:0:3:0): CAM status: CCB request terminated by the host. Видимо все-таки кривой диск вешал контроллер. Диск был извлечен из корзины и выброшен, после этого пул был импортирован и всё нормально заработало.
Встречал такую "фитчу" у контролера Adaptek 31605. Один диск в 10 раиде начал подыхать, контролер все это время периодический отправлял сервер в панику, или не давал биосу добраться до загрузки системы.