Страница 1 из 1

13.5 не отключает отказавший диск

Добавлено: 2025-07-31 15:07:23
~Dimon~
Есть кривой Hitachi/HGST Ultrastar 7K2 (1Тб), после какого то количества записей - зависает, в лог сперва валятся пачки:
WRITE_DMA48...
CAM status: Command timeout
затем дисковые операции ZFS полностью прекращаются, ни чего не пишет и даже не читает, до отключения питания, не смотря на то, что есть второй диск в зеркале, и он в порядке.

Предыдущие версии Фри, отключали диск после какого то количества ошибок или таймаута (точно не понял), но теперь оно висит в этом состоянии часами, пока туда не приедешь, и не дашь пендаля питанием.
Что нужно подкрутить?

Дисков два, размечены GPT:
1. freebsd-boot
2. Своп на gmirror
3. Зеркало ZFS - система и прочее.

Имитация поведения raid-edition, так как часть дисков с десктопной прошивкой:
kern.cam.ada.default_timeout="7"
kern.cam.ada.retry_count="1"

Диск будем менять, но решение все равно нужно, в любой момент один из дисков зеркала может отказать по любой причине, и надо что бы дальше нормально ехало на исправном.

13.5 не отключает отказавший диск

Добавлено: 2025-07-31 15:27:05
Neus
~Dimon~ писал(а):
2025-07-31 15:07:23
в любой момент один из дисков зеркала может отказать по любой причине, и надо что бы дальше нормально ехало на исправном.
Отключи его.
Он у тебя уже отказывается работать.

13.5 не отключает отказавший диск

Добавлено: 2025-07-31 15:40:17
~Dimon~
Это "решение" не устраивает.
Система должна нормально работать при полном или частичном отказе одного из дисков, пока его не заменят.

13.5 не отключает отказавший диск

Добавлено: 2025-08-01 16:56:33
guest
Не хочешь отключать - замени! Вешается контроллер или шина... Решение его не устраивает... ну так бушь ездить чудик

ps. Не так давно в одном сервере начал дурить БП (сервер с одним бп), говорю начальству - нужно менять...
И главное, сервер НЕ в аппаратной, итог - бп сдох с КЗ, в комнате вышибло автомат, итог - все оборудование в комнате
ожидало ручного передергивания автомата. Навеяно:
Это "решение" не устраивает.
Система должна нормально работать при полном или частичном отказе одного из дисков, пока его не заменят.