Каждый день в 6 вечера как по часам система падает
Добавлено: 2012-05-01 21:04:35
Доборого времени суток, господа умные люди.
Ваш покорный слуга в полнейшем отчаиньи.
система: изначально 8.2RC1, позже, уже после начала всей катавасии, обновлена (cvsup stable + buildworld) до 8.3 Stable, софтовое зеркало на gmirror, демоны: mpd, dhcpd, snmpd, ntp, quagga (только zebra), squid (прозрачный), apache, radius, mysql. В кроне несколько самописных скриптов для парсинга логов радиуса, dhcpd и создания static-arp и static-dhcp записей для wi-fi сети, и все они запускаются четко раз в 2 или в 5 минут, в зависимости от.
Примерно неделю тому назад каждый вечер около 6 часов (+/- полчаса, не больше) система стала вываливаться в kernel panic без объявления войны. Я перепроверил все логи, пробовал в ядре отключать SMP, отключать IPFIREWALL, DUMMYNET и т.п. - при компиляции чистого GENERIC вроде бы не падает, но не могу проверить его под нагрузкой и на время, так как сервер боевой и на нем висит целое общежитие института. сначала пробовал загрузиться в single user, запускал все стартовые скрипты руками, ожидая, кто из них повалит систему. Сначала повалилась на зебре - я обрадовался, фиг бы с ней, с зеброй, она и нужна-то была для удобного поднятия статических маршрутов. Заменил все рукописной маршрутизацией, но через сутки все повторилось снова. Я отслеживал кактусом по snmp моменты падения (1-2 минуты до) - никакой подозрительной активности. По трафику тоже ничего интересного не было - могли быть всплески, а могла быть и тишина. Пробовал закрыть ssh, мало ли что... хотя auth.log пуст, как и messages. Не помогает. Фигня, я заменил физический сервер, переставив в него харды - благо gmirror, переставляй хоть по одному. Не помогло. Вынимал харды по одному. Не помогло. Проверил размеры логов, не превышает ли какой файлик гигабайта. Нет, не превышает, да и на подобных конфигах у меня бывали логи и по 5г. Выключил gmirror, снял geom_mirror и оберизил. Не помогло, хотя продержалось на сутки больше. И все же упало.
Помогите советом, куда еще можно смотреть? я готов приложить листинги любых логов, какие есть в системе, а логируется почти все.
Ваш покорный слуга в полнейшем отчаиньи.
система: изначально 8.2RC1, позже, уже после начала всей катавасии, обновлена (cvsup stable + buildworld) до 8.3 Stable, софтовое зеркало на gmirror, демоны: mpd, dhcpd, snmpd, ntp, quagga (только zebra), squid (прозрачный), apache, radius, mysql. В кроне несколько самописных скриптов для парсинга логов радиуса, dhcpd и создания static-arp и static-dhcp записей для wi-fi сети, и все они запускаются четко раз в 2 или в 5 минут, в зависимости от.
Примерно неделю тому назад каждый вечер около 6 часов (+/- полчаса, не больше) система стала вываливаться в kernel panic без объявления войны. Я перепроверил все логи, пробовал в ядре отключать SMP, отключать IPFIREWALL, DUMMYNET и т.п. - при компиляции чистого GENERIC вроде бы не падает, но не могу проверить его под нагрузкой и на время, так как сервер боевой и на нем висит целое общежитие института. сначала пробовал загрузиться в single user, запускал все стартовые скрипты руками, ожидая, кто из них повалит систему. Сначала повалилась на зебре - я обрадовался, фиг бы с ней, с зеброй, она и нужна-то была для удобного поднятия статических маршрутов. Заменил все рукописной маршрутизацией, но через сутки все повторилось снова. Я отслеживал кактусом по snmp моменты падения (1-2 минуты до) - никакой подозрительной активности. По трафику тоже ничего интересного не было - могли быть всплески, а могла быть и тишина. Пробовал закрыть ssh, мало ли что... хотя auth.log пуст, как и messages. Не помогает. Фигня, я заменил физический сервер, переставив в него харды - благо gmirror, переставляй хоть по одному. Не помогло. Вынимал харды по одному. Не помогло. Проверил размеры логов, не превышает ли какой файлик гигабайта. Нет, не превышает, да и на подобных конфигах у меня бывали логи и по 5г. Выключил gmirror, снял geom_mirror и оберизил. Не помогло, хотя продержалось на сутки больше. И все же упало.
Помогите советом, куда еще можно смотреть? я готов приложить листинги любых логов, какие есть в системе, а логируется почти все.