Страница 1 из 1

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-06 15:57:52
serzh
Добрый день.

на одном из сереверов то ли после апгрейда, то ли после перезагрузки начали сыпаться ошибки на всех дисках с одного контроллера. растёт 199 атрибут, который обычно указывает на проблемы с кабелем, но я в данном случае скорее грешу на контроллер или саму операционку, так как до перезагрузки этих ошибок не было вообще.

Так как сервер в продакшине, лишний раз перезагружать бы его не хотелось. знаю что можно добавить записи вида hint.ahcich.0.sata_rev="1" в loader.conf, но оно применяется только при загрузке, надо точно подобрать номер устройства и нет гарантии что это вообще поможет. :-(
Пришлось менять на многих серверах, так как SATA3 часто глючит, видимо кабели не очень качественные попадаются, да и всё равно таких скоростей на традиционных дисках не бывает, убавляешь скорость и ошибок больше никогда нет. :-)


Вопрос: можно ли как-то поменять скорость SATA диска на лету, без перезагрузки? через camcontrol или smartctl ? сколько не гуглил - не нашёл :-(

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-06 22:32:37
guest
Вопрос: можно ли как-то поменять скорость SATA диска на лету, без перезагрузки? через camcontrol или smartctl
нельзя
Проблема не в SATA3, а в:
- кабель
- контроллер
- экспандер

и тут нужно не hint для sata использовать, а искать и устранять проблему

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-07 0:43:02
Alex Keda
если это продакшен - то лучше запланировать простой и поемнять шнурки/подёргать шлейфы

у самого такое было, причём на микроблейде, блин.
разобрал весь кусок который за диски отвечает, собрал обратно, диски местами поменял - как рукой всё сняло

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-07 15:51:33
serzh
я чую, что скорее всего дело в железе, но почему оно тогда нормально работало до перезагрузки?

Доехать физически в ближайшее время не получится, поэтому хотелось бы попробовать решить проблему софтово. ну не верю я в такие совпадения.

Почему кстати нельзя поменять режим без перезагрузки? что такое хитрое делает hint, что нельзя сделать онлайн?

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-07 15:57:41
serzh
и кстати вспоминаю, что в самом начале несколько лет назад подобное уже было, тогда грешил на mfi, так как после смены драйвера на mrsas проблема ушла, но возможно таки проблема в том, что оно нестабильно инициализируется иногда, перезагрузка это решает.

Только сейчас понял, что возможно это была та же самая проблема, тогда не обратил внимание на то какие именно диски глючили, но возможно так же были все с одного из контроллеров.

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-07 16:08:59
serzh
грешу на кабель между контроллером и экспандером, есть возможность программно отключить одну из линий, чтобы проверить теорию?

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-08 10:47:18
serzh
после перезагрузки без каких-либо изменений параметров проблема ушла, всё работает как надо. мистика, если и железо виновато, то непонятно как это диагностировать теперь.

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-08 13:54:09
guest
после перезагрузки без каких-либо изменений параметров проблема ушла, всё работает как надо. мистика, если и железо виновато, то непонятно как это диагностировать теперь.
Вы написали размазано про SATA 3, это как бы ни о чем.
Поясню, есть:
контроллер <-> expander <=> диски

На скольких дисках проблемы? Если на одном - проблема в конктретном диске или
стыке диска и hot-swap корзины.
Если проблема с большим кол-вом дисков, проблемы о которых расписывалось ранее.

Пример: было подобное с ASUS сервером в исполнении пьедестал. Тесты smartctl
отрабатывали на ура, в логи сыпались ошибки, счетчики smart накручивались.
Проблема была со всеми дисками. Переставил в проверенный 2U - никаких ошибок,
диски работали на ура, никаких проблем под стресс-тестами, только рост температуры,
как и должно быть.
Полез в ASUS - отключил их дешевый экспандер, подключил прямо к контроллеру,
проблема ушла, снял экспандер и подключил диски напрямую к контроллеру,
потерял hot-swap но решил проблему.

Пример: увы не записал модель экспандера Supermicro, но модель контроллера
где-то записана. Соль: проблема договора по скорости в случае использования
смешанных дисков: SATA и SAS. В Supermicro ответили: мы знаем про эту
проблему, к сожалению, решение одно: используйте только один тип дисков.
Проблема только в сочетании определенного контроллера и определенного
экспандера.

Подобные вариации встречаются, если у Вас проблемы с единичными дисками,
дело в самом диске. Например: 4'е диска подключены к Backplane, с одним
или двумя проблемы. Дело в дисках, как вариант: диски разных производителей
и поддерживают разные протоколы, одни max SATA3, другие max SATA2.
Контроллер может понизить скорость всех до минимальной с которой
договорился один диск из всех.

Были и нерешаемые проблемы с Adaptec'ами на многодисковых стораджах:
>= 24, не раскручивались диски, задержки по питанию, firmware от
Adaptec и производителей дисков (они совместно пытались решить проблему),
не дали результата, кроме одного: переходить на 2.5" с меньшим энергопотреблением
или на SSD.

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-08 14:36:17
serzh
я написал выше, что ошибки сыпались по всем дискам с одного из контроллеров/экспандеров, 199 атрибут SMART увеличивался на всех дисках синхронно с ошибками. Чем выше нагрузка - тем больше ошибок. диски все SATA на этом контроллере. контроллера два, немного разных, экспандера тоже два и тоже немного разные.

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-08 16:02:34
guest
я написал выше, что ошибки сыпались по всем дискам с одного из контроллеров/экспандеров, 199 атрибут SMART увеличивался на всех дисках синхронно с ошибками. Чем выше нагрузка - тем больше ошибок. диски все SATA на этом контроллере. контроллера два, немного разных, экспандера тоже два и тоже немного разные.
те на двух серверах похожие проблемы?
сервера в разных стойках и запитаны с разных мест?
температура? диски разных производителей? сервера разных производителей?

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-08 21:51:39
Гость
Сервер один, контроллера два, дисков много

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-09 12:58:45
guest
serzh писал(а):контроллера два, немного разных, экспандера тоже два и тоже немного разные.
Гость писал(а):Сервер один, контроллера два, дисков много
"В чем правда, брат?"

Если сервер один, почему экспандеры "немного разные"? И что это за сервер и в какой конфигурации?

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-15 13:02:13
serzh
один сервер, два контроллера, два экспандера, к каждому контроллеру свой экспандер, что не так? один экспандер на 40 дисков, второй на 16
глючит который на 16, причём похоже глючит с первого дня, сервер перезагружается крайне редко, иногда такое случается похоже, после ещё одной перезагрузи глючить перестаёт.

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-15 20:13:26
guest
один сервер, два контроллера, два экспандера, к каждому контроллеру свой экспандер, что не так? один экспандер на 40 дисков, второй на 16
если expander на backplane - заменить backplane, если epander как pcie card - заменить,
в чем проблема?
В чем проблема отписать в support производителя?

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-16 17:04:58
Demis
Не много не в тему, с Supermicro из недавнего (в работе железка лет 8), месяца 4-ре назад, встроенный сетевой адаптер стал терять MAC.
Удаленный перезапуск помог не на долго, примерно сутки, еще один перезапуск - тоже самое, передергивание коннекторов эффект тот-же.
Ножками пришлось идти. Выключил. Полностью обесточил. Подождал 5 минут. Проверил, что пыль на плате отсутствовала. Запустил. Пока сбои не повторялись. Получается что-то в железе, лихо так, сглючило...

Изменение режима SATA без перезагрузки

Добавлено: 2021-09-28 14:41:37
serzh
guest писал(а):
2021-09-15 20:13:26
в чем проблема?
В чем проблема отписать в support производителя?
Я же написал, что очень похоже на временный глюк, так как после перезагрузки он уходит и не появляется до одной из следующих, не исключаю что вообще виновата ОС. Как такое сдавать производителю, если оно работает нормально в большинстве случаев,