Периодически стал тихо и наглухо виснуть сервак.

Решение проблем связванных с работой железа. Проблемы программно-аппаратной совместимости.
Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Аватара пользователя
Духовитин
мл. сержант
Сообщения: 125
Зарегистрирован: 2014-12-17 8:46:05

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Духовитин » 2018-11-24 22:32:30

Товарищи, добрый день!

Поделитесь своими соображениями, что такое может быть с серваком.
Железо: CPU: AMD FX-6300, RAM: 2*8Gb, HDD SATA 1TB *2 - ZFS Mirror.
ОС: FreeBSD 11.2 amd64 r340490

С недавних пор стал ни с того ни с сего на выходных ночью зависать. Нагрузки ночью на сервак никакой, стоит он в серверной с кондиционером и упсом.
Симптомы вообще странные. Утром пришёл его чинить, на мониторе в консоли последние сообщение от одной из прог что типа не может записать ничего в лог файл, т.к. его нет. Как будто диски просто выпали из системы. Но если диски из системы выпадают, то на главную консоль об этом идут сообщения, а тут пустота.
По сети сервак не виден, на клаву не реагирует. Выключил его/включил пашет как ни в чём не бывало. Но вечером и похоже что даже в такое-же время он снова завис. Завтра снова пойду.

Единственное что как-то у этого сервера в жизни поменялось, так это рядом с ним в стойке появились две недели назад два других сервака, со своим упсом. Думаю, может какая херня там этим упсом нагрузку в сети скачкообразно делает и сервант мой виснет?

Может было у кого что подобное? Ну и ещё из того что наблюдается, от корпуса сервака этого током бьёт. Может это тоже быть причиной для подобных проблем?
Кто не рискует - тот не пьёт шампанского.

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

snorlov
подполковник
Сообщения: 3927
Зарегистрирован: 2008-09-04 11:51:25
Откуда: Санкт-Петербург

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение snorlov » 2018-11-25 16:12:06

током бьет... Офигеть...И при этом на бесперебойнике висит... в похожей ситуации я остался и без блока питания и без ИБП... Вам на дополнительные серваки 220 вольт нормально развели... А то ведь могли на ваш сервак развести ненормально, а на эти как надо...

Demis
прапорщик
Сообщения: 496
Зарегистрирован: 2015-05-25 14:36:32

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Demis » 2018-11-26 22:10:35

Проверить "фазность" на входе всех устройств UPS.
Что имеется ввиду?
Если несколько розеток на стенке серверной, то они с одной фазы запитаны или с разных?
Если разные фазы, то какие упсы? Настоящие смарты или так-себе.
Целый-ли "0"?
Исправность "земли" всех розеток?
Стойка к "земле" подключена?
Прежде чем прозванивать промерять напряжения тестером на всех режимах (переменное и постоянное напряжения).
Обязательно промерять входное напряжение на всех упсах под нагрузкой, на предмет "оно одинаковое" или нет.
Как именно это осуществить в Вашем случае - соображать Вам.

Есть высокая вероятность, что это два разных косяка.
Т.е. добавленные серваки могут быть и не причем.

По зависающему серваку:
1. Вспомнить когда менялись настройки в биос.
2. Не трогался-ли ACPI и какой-нибудь тротлинг.
3. Примерное время заморозки? Если, примерно, около времени формирования ночных отчетов, то это "теплее" к п.1 и п.2.
4. Сталкивался с ерундой возникающей в самом железе если в биосе не выставлено что-то вроде "управление питанием для виндовс" (запамятвовал дословно). Лечилось выставлением "да виндовс это" и дебаг ACPI+устранение всех ошибок по оному+подгрузка измененной схемы при каждом запуске FreeBSD.
5. Изменяется-ли поведение если сервак выключить, потом обесточить, от слова совсем, т.е. провода отсоединить на 15-20 секунд.
6. Как давно работает "ОС: FreeBSD 11.2 amd64 r340490"? И небыло-ли косяков при апдейте?
7. Ну про пыль на вентияторах процессоров, термопасту и вздутые конденсаторы на мат.плате - молчу, подразумевая, что все в ажуре и гарантировано проверено.

Все написанное НЕ руководство к действию, но путь проверки.
Т.к. можно попалить все если начать "тупо" тыркаться проводочками.

8. И давно-ли на нем zfs? Он тоже на 11.2 может фокусы подкидывать.

Аватара пользователя
Духовитин
мл. сержант
Сообщения: 125
Зарегистрирован: 2014-12-17 8:46:05

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Духовитин » 2018-12-05 21:21:10

Товарищи, эта загадочная история ещё неокончена.

В итоге этот сервак запитал в тот же упс, на котором остальные 2 висят.
УПС Ippon Smart 2000VA, не топ конечно, но нагрузку держит. Сейчас у него нагрузка с тремя серваками показывает не более 20% (1 деление из 5).

В серваке проблемном устал всё проверять и каждое утро лететь на работу чтоб его ребутнуть и заменил всю платформу. (Мать, проц, память, новый БП на 600вт), прежними остались только диски и 2 сетевухи Intel'овые. Одна PCI, другая PCI-Express.
Так вот сегодня ночью он ровно в 2 часа ребутнулся. Ну ребутнулся это уже не так ужасно как завис намертво, по крайней мере продолжает работать и не надо сломя голову утром лететь его оживлять. Странно что ровно в 2 часа ночи. Посмотрел в cron, никаких задач нет на это время. В логах никаких сообщений, пиздец полтергейст какой-то.

Demis, по поводу твоих пунктов:
1. Не менялись. Он полтора года стоял и знать я про него забыл уже. Только по ssh заходил.
2. Нет не трогался. В процессе поиска причин проблемы проверял и температуру проца и powerd пробовал включать ограничивая максимальную частоту проца. Не влияет.
3. Исключительно ночь. Но от нагрузки это не зависит. Я запускал пересборку мира в 8 потоков, и это его не гробит.
4. На выходных погляжу, сейчас не буду вырубать его.
5. Нет, делал это несколько раз (БП менял, платформу заменял, память менял) - не влияет.
6. С 17 ноября. Косяков при апгрейде не было, но сейчас на всяк случай обновляю до актуального 11.2-STABLE, а то какие-то уязвимости недавно закрыли.
7. Чистый, как на выходных все внутренности поменял, поставлено всё чистое, но и до этого чистое всё было. Насчёт кондёров, оглядел мельком, но вроде нет проблемных.
8. ZFS с самой установки сервака. 2 года работает, или работала :(
Кто не рискует - тот не пьёт шампанского.

Demis
прапорщик
Сообщения: 496
Зарегистрирован: 2015-05-25 14:36:32

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Demis » 2018-12-05 21:36:59

Скорее склоняюсь, что проблема софтовая, а не железная.
А как обновлялись?
Перекомпиляцией или апдейтом?
Если первое, то кастом или генерик?
Если второе то, есть подозрение, что часть системных скриптов "не та".

Аватара пользователя
Духовитин
мл. сержант
Сообщения: 125
Зарегистрирован: 2014-12-17 8:46:05

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Духовитин » 2018-12-05 21:40:30

Обновлялся make buildworld'ом всё как положено с mergemaster -p и mergemaster'ом.
Ядро кастом, но оно с момента начальной генерации сервака не менялось.
Кто не рискует - тот не пьёт шампанского.

Аватара пользователя
Alex Keda
стреляли...
Сообщения: 35454
Зарегистрирован: 2004-10-18 14:25:19
Откуда: Made in USSR
Контактная информация:

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Alex Keda » 2018-12-08 14:12:04

powerd отключите
была похожая проблема из-за него
Убей их всех! Бог потом рассортирует...

Demis
прапорщик
Сообщения: 496
Зарегистрирован: 2015-05-25 14:36:32

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Demis » 2018-12-10 10:47:35

Такс...
Все-таки кастом....
А можете на генерике проверить/поработать?
Хочу исключить вариант о котором писалось здесь:freebsd-f8/strannaya-problema-s-zfs-i-s ... ml#p385971. Вариант, конечно, совсем не Ваш, но подумалось нет-ли примерно такого-же эффекта.

Аватара пользователя
Духовитин
мл. сержант
Сообщения: 125
Зарегистрирован: 2014-12-17 8:46:05

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Духовитин » 2018-12-12 22:00:12

Извините что пропал Уважаемые, сменив платформу полностью проблемы ушли.
Перезагрузка в первую ночь "с новой платформой" видимо была просто случайностью.

Но опять же точно неизвестно, потому что на всяк случай я ещё раз пересобрал до актуального -STABLE мир, абсолютно по-честному произвёл обновление, чтобы исключить
Demis писал(а):
2018-12-05 21:36:59
Если второе то, есть подозрение, что часть системных скриптов "не та".
Alex Keda писал(а):
2018-12-08 14:12:04
powerd отключите
была похожая проблема из-за него
не похоже, т.к. он и так на этом серваке отключен. Ибо есть кондиционер :)
Demis писал(а):
2018-12-10 10:47:35
Хочу исключить вариант о котором писалось здесь:freebsd-f8/strannaya-problema-s-zfs-i-s ... ml#p385971.
ну да, точно не мой вариант :) Ни нетграфа, ни дебагов в ядре у меня нет. IPFIREWALL только из перечисленного там :)

Для исключения "железного" источника проблемы надо бы заменённую платформу погонять. Там из компонентов - мать, проц, плашка памяти и видяха. Погоняю этот комплект в свободное время.

Всем спасибо за участие!
Кто не рискует - тот не пьёт шампанского.

snorlov
подполковник
Сообщения: 3927
Зарегистрирован: 2008-09-04 11:51:25
Откуда: Санкт-Петербург

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение snorlov » 2018-12-13 12:28:45

Может вечная проблема в электролитах))))))))))))

Demis
прапорщик
Сообщения: 496
Зарегистрирован: 2015-05-25 14:36:32

Периодически стал тихо и наглухо виснуть сервак.

Непрочитанное сообщение Demis » 2018-12-13 12:51:25

snorlov писал(а):
2018-12-13 12:28:45
Может вечная проблема в электролитах))
Очень может быть... Было такое на домашнем. И именно "ночное", т.е. когда стандартные репорты генерятся. Самое смешное, что машинка там всегда в работе и чего-то делает, но именно на репортах приходил каюк. Паяльник все исправил...