Страница 1 из 1

Перезагрузка сервера

Добавлено: 2016-04-06 15:51:11
asilovar
Всем привет.
Имею сервер в виде

Код: Выделить всё

FreeBSD mo46-ir.mostro.ru 10.2-RELEASE-p14 FreeBSD 10.2-RELEASE-p14 #41: Mon Apr  4 13:59:57 MSK 2016     mo46@mo46-ir.mostro.ru:/usr/obj/usr/src/sys/ROUTER  amd64
Ядро собрано с доп.опциями:
options IPFIREWALL
options IPDIVERT
options IPFIREWALL_VERBOSE
options IPFIREWALL_VERBOSE_LIMIT=5
options IPFIREWALL_NAT
options LIBALIAS
options ROUTETABLES=2
options DUMMYNET
Установлен squid3.5.16+авторизация по керберосу в домене.
Последнюю неделю через произвольные промежутки времени сервер стал перезагружаться.
Обновил биос на мат.плате, ничего не изменилось. Перезагрузка так же продолжается через разные промежутки времени, но только когда идет нагрузка, например от 10 и более пользователей сквида+всегда фигурирует current process = 12 (irq19: rl0), где rl0: <RealTek 8139 10/100BaseTX> port 0xd000-0xd0ff mem 0xf7c10000-0xf7c100ff irq 19 at device 0.0 on pci4 внешняя сетевая карта.
Менял на pci-e вариант, с переименованием в /etc/rc.conf: ifconfig_re1_name="rl0"
Не помогло.

Код: Выделить всё

root: vmstat -i 
interrupt                          total       rate
irq16: ehci0                       20782          1
irq19: rl0                      23617085       1771
irq23: ehci1                       36239          2
cpu0:timer                      13294064        997
irq264: hdac0                          7          0
irq265: xhci0                         48          0
irq266: hdac1                        112          0
irq267: re0                     27499262       2063
irq268: ahci0                      12071          0
cpu1:timer                         49948          3
cpu2:timer                       2704176        202
cpu3:timer                       3377872        253
Total                           70611666       5297
Почистил кэш сквида, пока полет нормальный, только в логах сыплется:

Код: Выделить всё

root@mo46-ir:/usr/home/mo46 # tail -F /var/squid/logs/cache.log | grep ICMP 
2016/04/06 14:59:45| Error sending to ICMP packet to 146.0.5.24. ERR: (13)Permission denied
2016/04/06 14:59:46| Error sending to ICMP packet to 217.69.133.148. ERR: (13) Permission denied
k2016/04/06 15:01:57| Error sending to ICMP packet to 141.105.69.40. ERR: (13) Permission denied
2016/04/06 15:02:08| Error sending to ICMP packet to 149.202.196.16. ERR: (13) Permission denied
2016/04/06 15:02:09| Error sending to ICMP packet to 178.63.4.170. ERR: (13) Permission denied
2016/04/06 15:02:09| Error sending to ICMP packet to 51.254.196.179. ERR: (13) Permission denied
2016/04/06 15:02:19| Error sending to ICMP packet to 91.205.127.4. ERR: (13) Permission denied
2016/04/06 15:03:03| Error sending to ICMP packet to 77.88.55.55. ERR: (13) Permission denied
2016/04/06 15:03:03| Error sending to ICMP packet to 178.57.220.215. ERR: (13) Permission denied
2016/04/06 15:03:04| Error sending to ICMP packet to 109.194.201.121. ERR13) Permission denied
2016/04/06 15:03:06| Error sending to ICMP packet to 5.101.153.76. ERR: (13) Permission denied
2016/04/06 15:03:07| Error sending to ICMP packet to 108.177.14.95. ERR: (13) Permission denied
2016/04/06 15:03:07| Error sending to ICMP packet to 64.233.164.121. ERR: (13) Permission denied
2016/04/06 15:03:07| Error sending to ICMP packet to 83.142.83.182. ERR: (13) Permission denied
2016/04/06 15:03:07| Error sending to ICMP packet to 54.231.141.179. ERR: (13) Permission denied
Перезагрузка через ~30 часов, трассировка:

Код: Выделить всё

root@mo46-ir:/var/crash # kgdb -q /boot/kernel/kernel /var/crash/vmcore.5
Reading symbols from /boot/kernel/ums.ko.symbols...done.
Loaded symbols for /boot/kernel/ums.ko.symbols
Reading symbols from /boot/kernel/ng_socket.ko.symbols...done.
Loaded symbols for /boot/kernel/ng_socket.ko.symbols
Reading symbols from /boot/kernel/netgraph.ko.symbols...done.
Loaded symbols for /boot/kernel/netgraph.ko.symbols
Reading symbols from /boot/kernel/ng_mppc.ko.symbols...done.
Loaded symbols for /boot/kernel/ng_mppc.ko.symbols
Reading symbols from /boot/kernel/rc4.ko.symbols...done.
Loaded symbols for /boot/kernel/rc4.ko.symbols
#0  doadump (textdump=<value optimized out>) at pcpu.h:219
219     pcpu.h: No such file or directory.
        in pcpu.h
(kgdb) bt
#0  doadump (textdump=<value optimized out>) at pcpu.h:219
#1  0xffffffff809436c2 in kern_reboot (howto=260)
    at /usr/src/sys/kern/kern_shutdown.c:451
#2  0xffffffff80943aa5 in vpanic (fmt=<value optimized out>,
    ap=<value optimized out>) at /usr/src/sys/kern/kern_shutdown.c:758
#3  0xffffffff80943933 in panic (fmt=0x0)
    at /usr/src/sys/kern/kern_shutdown.c:687
#4  0xffffffff80d6257b in trap_fatal (frame=<value optimized out>,
    eva=<value optimized out>) at /usr/src/sys/amd64/amd64/trap.c:851
#5  0xffffffff80d6287d in trap_pfault (frame=0xfffffe011a1852b0,
    usermode=<value optimized out>) at /usr/src/sys/amd64/amd64/trap.c:674
#6  0xffffffff80d61f1a in trap (frame=0xfffffe011a1852b0)
    at /usr/src/sys/amd64/amd64/trap.c:440
#7  0xffffffff80d48332 in calltrap ()
    at /usr/src/sys/amd64/amd64/exception.S:236
#8  0xffffffff80b3f151 in ipfw_chk (args=0xfffffe011a185560)
    at /usr/src/sys/netpfil/ipfw/ip_fw2.c:1716
#9  0xffffffff80b45c9b in ipfw_check_packet (arg=<value optimized out>,
    m0=0xfffffe011a185718, ifp=<value optimized out>, dir=1, inp=0x0)
    at /usr/src/sys/netpfil/ipfw/ip_fw_pfil.c:149
#10 0xffffffff80a12ee4 in pfil_run_hooks (ph=0xffffffff8169e678,
    mp=0xfffffe011a1857a0, ifp=0xfffff80002bed800, dir=1, inp=0x0)
    at /usr/src/sys/net/pfil.c:82
---Type <return> to continue, or q <return> to quit---
Подскажите что делать ?

Перезагрузка сервера

Добавлено: 2016-04-06 21:01:45
Alex Keda
GENERIC попробуйте

Перезагрузка сервера

Добавлено: 2016-04-07 8:37:58
asilovar
Добрый день, переставил МП, опер.память и проц. Проверяю. НА генерике пока нет возможности проверить, очень много клиентов онлайн.

Перезагрузка сервера

Добавлено: 2016-04-07 8:45:09
Bayerische
Железо смотрели?
Если дохнет с высокой нагрузкой CPU, то есть вероятность, что ёмкости на материнке/в БП.

Перезагрузка сервера

Добавлено: 2016-04-07 8:57:07
asilovar
Бывает что на CPU2 поднимается нагрузка до 10% interrupt и в логах при перезагрузке всегда фигурирует CPU2.

Отправлено спустя 4 минуты 3 секунды:
Опять только что на другом железе перезагрузился. Поменяю еще внешнюю сетевуху.

Отправлено спустя 3 минуты 43 секунды:
Сейчас выдало такую "ошибку":current process = 12 (irq19: rl0 uart2)

Перезагрузка сервера

Добавлено: 2016-04-07 15:59:00
asilovar
Видимо загвоздка в ядре, без ipfw и nat работает без проблем, ядро собрано с опциями:
options IPFIREWALL
options IPDIVERT
options IPFIREWALL_VERBOSE
options IPFIREWALL_VERBOSE_LIMIT=50000
options IPFIREWALL_NAT
options LIBALIAS
options ROUTETABLES=2
options DUMMYNET

Может быть проблемы с какими-то опциями в данной ветке ?

Отправлено спустя 1 час 6 минут 51 секунду:
Интересная особенность: после нескольких перезагрузок при проверке диска (т.к. не может загрузится и загружается сразу в SM) исправляет ошибки где владельцем файла идет squid.