Периодически падает сервер

Настройка сетевых служб, маршрутизации, фаерволлов. Проблемы с сетевым оборудованием.
Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Аватара пользователя
kharkov_max
капитан
Сообщения: 1862
Зарегистрирован: 2008-10-03 14:56:40

Периодически падает сервер

Непрочитанное сообщение kharkov_max » 2015-06-22 15:23:46

День добрый

Прошу помощи, ибо уже не знаю куда смотреть.
Пишу тут т.к. может быть проблема с сетью.

Есть 2 сервера freebsd10.1 Stable, настроены практически одинаково.
Функции:
- фаервол ipfw
- DHCP
- DNS unbound
- прозрачный Squid (80,8080,8081)
- racoon (IPSEC на 2 тунеля)
- Vlan (на 6 IP )

Оба сервера периодически падают с
ipfw pullup field
При падении возможна только жесткая перезагрузка кнопкой, клавиатура и ctrl+alt+del не работают.

На сколько я понимаю эта ошибка ни о чем не говорит, т.к. возникать может по различным причинам.
Кто то писал что помогает ужесточение правил фаервола, кото то что тюнинг sysctl помогал.
Фаерволы на серверах разные, один "тяжелый", другой "легкий", из этого делаю вывод что проблема не в фаерволе

Sysctl на одном из серверов:

Код: Выделить всё

security.bsd.see_other_uids=0

# IPFW
net.inet.ip.forwarding=1
net.inet.ip.fw.one_pass=0
# Меняем ttl отправленных пакетов под Win Nt
net.inet.ip.ttl=128
net.inet.tcp.rfc1323=1
# Затрудняем определение системы сетевым сканерам
net.inet.tcp.drop_synfin=1
# Block T2 is the TCP sequenceability test Nmap
# Установка генерации случайных значений IPID
net.inet.ip.random_id=1
# Шаг нумерации правил ipfw по умолчанию
net.inet.ip.fw.autoinc_step=10
# Кол-во динамических правил
net.inet.ip.fw.dyn_max=262140

# ???
net.inet.tcp.delayed_ack=1

kern.ipc.maxsockbuf=2097152
kern.ipc.maxsockets=204800
net.local.stream.recvspace=65535
net.local.stream.sendspace=65535
net.inet.ip.portrange.first=1024
net.inet.ip.portrange.last=65535
net.inet.ip.portrange.randomized=0

# -- 16.06.2015
net.inet.tcp.finwait2_timeout=5000
net.inet.tcp.fast_finwait2_recycle=1
net.inet.tcp.always_keepalive=0
net.inet.tcp.nolocaltimewait=1
# ---

kern.maxfiles=256000
kern.maxfilesperproc=230400
kern.ipc.somaxconn=8192

kern.ipc.nmbclusters=262144
На этом же сервере loader.conf

Код: Выделить всё

zfs_load="YES"
kern.geom.label.gptid.enable="0"

# Добавлено
autoboot_delay="5"
loader_logo="none"
alias_ftp_load="YES"

kern.maxusers=1024

vfs.zfs.prefetch_disable=1
vfs.zfs.dedup.prefetch=0
vfs.zfs.zil_disable=1
# vfs.zfs.txg.timeout="10"
vm.kmem_size="1G"
vm.kmem_size_max="1G"
Google уже не помагает, и падает скотина редко 4-5 дней.
Подскажите как можно докопаться до причины данного события?

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

Bayerische
капитан
Сообщения: 1820
Зарегистрирован: 2010-12-25 20:41:50
Откуда: Хлебная столица

Периодически падает сервер

Непрочитанное сообщение Bayerische » 2015-06-22 15:30:08

Может, жара?
У меня на удалёнке падал при нагрузке сервер. Человек разобрал, сказал, что в радиаторе войлок. После прочистки всё заработало.

Отправлено спустя 1 минуту 25 секунд:
http://forum.lissyara.su/viewtopic.php?t=39471

Аватара пользователя
kharkov_max
капитан
Сообщения: 1862
Зарегистрирован: 2008-10-03 14:56:40

Периодически падает сервер

Непрочитанное сообщение kharkov_max » 2015-06-22 17:25:49

Да с температурой все ОК

Код: Выделить всё

>> sysctl -a | grep dev.cpu.\*.temperature
dev.cpu.0.temperature: 43,0C
dev.cpu.1.temperature: 43,0C
dev.cpu.2.temperature: 39,0C
dev.cpu.3.temperature: 39,0C
dev.cpu.4.temperature: 43,0C
dev.cpu.5.temperature: 43,0C
dev.cpu.6.temperature: 37,0C
dev.cpu.7.temperature: 37,0C
Этот пост видел и он ни о чем ...
По сути рекомендуют на старую систему уйти ...

Отправлено спустя 1 час 24 минуты 28 секунд:
Вот кусок лога из massages до падения сервера и начало загрузки

Код: Выделить всё

Jun 22 12:57:47 gateway devd: Executing '/etc/pccard_ether ng0 start'
Jun 22 13:05:00 gateway devd: Executing '/etc/pccard_ether ng0 start'
Jun 22 13:28:44 gateway devd: Executing '/etc/pccard_ether ng0 start'
Jun 22 13:42:31 gateway kernel: Limiting open port RST response from 251 to 200 packets/sec
Jun 22 14:01:26 gateway kernel: ipfw: pullup failed
Jun 22 14:17:31 gateway kernel: ipfw: pullup failed
Jun 22 14:50:07 gateway last message repeated 5 times
Jun 22 14:50:39 gateway last message repeated 2 times
Jun 22 14:55:06 gateway devd: Executing '/etc/pccard_ether ng1 start'
--------------------------------------------------------------------------------------------------------------------------------
Jun 22 14:57:55 gateway syslogd: kernel boot file is /boot/kernel/kernel
Jun 22 14:57:55 gateway kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994
Jun 22 14:57:55 gateway kernel: The Regents of the University of California. All rights reserved.
Jun 22 14:57:55 gateway kernel: FreeBSD is a registered trademark of The FreeBSD Foundation.
Jun 22 14:57:55 gateway kernel: FreeBSD 10.1-STABLE #8 r283099M: Tue May 26 19:04:26 MSK 2015
Jun 22 14:57:55 gateway kernel: root@gateway:/usr/obj/usr/src/sys/FREE10 amd64
Jun 22 14:57:55 gateway kernel: FreeBSD clang version 3.4.1 (tags/RELEASE_34/dot1-final 208032) 20140512
Jun 22 14:57:55 gateway kernel: CPU: Intel(R) Core(TM) i7 CPU         860  @ 2.80GHz (2798.07-MHz K8-class CPU)
Как видно из сообщений

Код: Выделить всё

Jun 22 14:01:26 gateway kernel: ipfw: pullup failed
Jun 22 14:17:31 gateway kernel: ipfw: pullup failed
ошибка была, но сервер продолжал потом работать.
Может и не в " ipfw: pullup failed" проблема ...

Отправлено спустя 12 минут 16 секунд:
Вот еще из лога, до и после

Код: Выделить всё

Jun 11 08:34:58 gateway last message repeated 2 times
Jun 11 08:35:30 gateway last message repeated 2 times
Jun 11 09:25:19 gateway devd: Executing '/etc/pccard_ether ng0 start'
Jun 11 10:08:25 gateway devd: Executing '/etc/pccard_ether ng1 start'
Jun 11 11:24:39 gateway kernel: ipfw: pullup failed
Jun 11 11:26:21 gateway devd: Executing '/etc/pccard_ether ng2 start'
Jun 11 11:30:10 gateway kernel: :.
Jun 11 11:30:10 gateway kernel: Cannot allocate memory
------------------------------------------------------------------------------------
Jun 11 11:31:08 gateway syslogd: kernel boot file is /boot/kernel/kernel
Jun 11 11:31:08 gateway kernel: Copyright (c) 1992-2015 The FreeBSD Project.
Jun 11 11:31:08 gateway kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994
Jun 11 11:31:08 gateway kernel: The Regents of the University of California. All rights reserved.
Jun 11 11:31:08 gateway kernel: FreeBSD is a registered trademark of The FreeBSD Foundation.
Jun 11 11:31:08 gateway kernel: FreeBSD 10.1-STABLE #8 r283099M: Tue May 26 19:04:26 MSK 2015
Jun 11 11:31:08 gateway kernel: root@gateway:/usr/obj/usr/src/sys/FREE10 amd64
Jun 11 11:31:08 gateway kernel: FreeBSD clang version 3.4.1 (tags/RELEASE_34/dot1-final 208032) 20140512
Jun 11 11:31:08 gateway kernel: CPU: Intel(R) Core(TM) i7 CPU         860  @ 2.80GHz (2798.07-MHz K8-class CPU)
Насторожило сообщение

Код: Выделить всё

Cannot allocate memory
Памяти 16Гб, ядру не хватило ?

snorlov
подполковник
Сообщения: 3927
Зарегистрирован: 2008-09-04 11:51:25
Откуда: Санкт-Петербург

Периодически падает сервер

Непрочитанное сообщение snorlov » 2015-06-22 21:46:23

kharkov_max писал(а): Jun 22 13:42:31 gateway kernel: Limiting open port RST response from 251 to 200 packets/sec
Может сетевушка барахлит

Аватара пользователя
kharkov_max
капитан
Сообщения: 1862
Зарегистрирован: 2008-10-03 14:56:40

Периодически падает сервер

Непрочитанное сообщение kharkov_max » 2015-06-23 7:33:04

snorlov писал(а):
kharkov_max писал(а): Jun 22 13:42:31 gateway kernel: Limiting open port RST response from 251 to 200 packets/sec
Может сетевушка барахлит
Да нет, это вроде как защита от ddos.

Гость
проходил мимо

Периодически падает сервер

Непрочитанное сообщение Гость » 2015-06-24 16:45:05

настрой по крону то бы статистику буферов куда то писало, и потом посмотришь после ребута что было по статистике
где и на чем сьелась память
у тебя либо ipfw перетюнен, либо ддосят качественно и нашли хорошую уязвимость

Аватара пользователя
kharkov_max
капитан
Сообщения: 1862
Зарегистрирован: 2008-10-03 14:56:40

Периодически падает сервер

Непрочитанное сообщение kharkov_max » 2015-06-24 17:25:33

Гость писал(а):настрой по крону то бы статистику буферов куда то писало, и потом посмотришь после ребута что было по статистике
где и на чем сьелась память
у тебя либо ipfw перетюнен, либо ддосят качественно и нашли хорошую уязвимость
Еще вчера нарисовал скрипт:

Код: Выделить всё

echo "=== Date `date '+%d-%m-%Y %H:%M:%S'` =====" >> $log
/usr/bin/netstat -m >> $log
echo "------------" >> $log
/sbin/sysctl -a | grep ip.fw >> $log
echo "------------------------------------------" >> $log
Сегодня опять упало, вот результат до и после падения

Код: Выделить всё

=== Date 24-06-2015 12:51:00 =====
517/7328/7845 mbufs in use (current/cache/total)
515/3801/4316/262144 mbuf clusters in use (current/cache/total/max)
515/3786 mbuf+clusters out of packet secondary zone in use (current/cache)
0/288/288/32768 4k (page size) jumbo clusters in use (current/cache/total/max)
0/0/0/9709 9k jumbo clusters in use (current/cache/total/max)
0/0/0/5461 16k jumbo clusters in use (current/cache/total/max)
1159K/10586K/11745K bytes allocated to network (current/cache/total)
0/0/0 requests for mbufs denied (mbufs/clusters/mbuf+clusters)
0/0/0 requests for mbufs delayed (mbufs/clusters/mbuf+clusters)
0/0/0 requests for jumbo clusters delayed (4k/9k/16k)
0/0/0 requests for jumbo clusters denied (4k/9k/16k)
0 requests for sfbufs denied
0 requests for sfbufs delayed
0 requests for I/O initiated by sendfile
------------
net.inet.ip.fw.one_pass: 0
net.inet.ip.fw.autoinc_step: 25
net.inet.ip.fw.verbose: 1
net.inet.ip.fw.verbose_limit: 20
net.inet.ip.fw.default_rule: 65535
net.inet.ip.fw.tables_max: 128
net.inet.ip.fw.default_to_accept: 0
net.inet.ip.fw.static_count: 187
net.inet.ip.fw.dyn_buckets: 1024
net.inet.ip.fw.curr_dyn_buckets: 1024
net.inet.ip.fw.dyn_count: 129
net.inet.ip.fw.dyn_max: 262140
net.inet.ip.fw.dyn_ack_lifetime: 300
net.inet.ip.fw.dyn_syn_lifetime: 20
net.inet.ip.fw.dyn_fin_lifetime: 1
net.inet.ip.fw.dyn_rst_lifetime: 1
net.inet.ip.fw.dyn_udp_lifetime: 10
net.inet.ip.fw.dyn_short_lifetime: 5
net.inet.ip.fw.dyn_keepalive: 1
net.inet.ip.fw.enable: 1
------------------------------------------
=== Date 24-06-2015 12:52:00 =====
572/7273/7845 mbufs in use (current/cache/total)
533/3783/4316/262144 mbuf clusters in use (current/cache/total/max)
533/3768 mbuf+clusters out of packet secondary zone in use (current/cache)
0/288/288/32768 4k (page size) jumbo clusters in use (current/cache/total/max)
0/0/0/9709 9k jumbo clusters in use (current/cache/total/max)
0/0/0/5461 16k jumbo clusters in use (current/cache/total/max)
1209K/10536K/11745K bytes allocated to network (current/cache/total)
0/0/0 requests for mbufs denied (mbufs/clusters/mbuf+clusters)
0/0/0 requests for mbufs delayed (mbufs/clusters/mbuf+clusters)
0/0/0 requests for jumbo clusters delayed (4k/9k/16k)
0/0/0 requests for jumbo clusters denied (4k/9k/16k)
0 requests for sfbufs denied
0 requests for sfbufs delayed
0 requests for I/O initiated by sendfile
------------
=== Date 24-06-2015 12:58:00 =====
524/5296/5820 mbufs in use (current/cache/total)
520/3286/3806/262144 mbuf clusters in use (current/cache/total/max)
520/3275 mbuf+clusters out of packet secondary zone in use (current/cache)
0/10/10/32768 4k (page size) jumbo clusters in use (current/cache/total/max)
0/0/0/9709 9k jumbo clusters in use (current/cache/total/max)
0/0/0/5461 16k jumbo clusters in use (current/cache/total/max)
1171K/7936K/9107K bytes allocated to network (current/cache/total)
0/0/0 requests for mbufs denied (mbufs/clusters/mbuf+clusters)
0/0/0 requests for mbufs delayed (mbufs/clusters/mbuf+clusters)
0/0/0 requests for jumbo clusters delayed (4k/9k/16k)
0/0/0 requests for jumbo clusters denied (4k/9k/16k)
0 requests for sfbufs denied
0 requests for sfbufs delayed
0 requests for I/O initiated by sendfile
------------
net.inet.ip.fw.one_pass: 0
net.inet.ip.fw.autoinc_step: 25
net.inet.ip.fw.verbose: 1
net.inet.ip.fw.verbose_limit: 20
net.inet.ip.fw.default_rule: 65535
net.inet.ip.fw.tables_max: 128
net.inet.ip.fw.default_to_accept: 0
net.inet.ip.fw.static_count: 187
net.inet.ip.fw.dyn_buckets: 1024
net.inet.ip.fw.curr_dyn_buckets: 256
net.inet.ip.fw.dyn_count: 152
net.inet.ip.fw.dyn_max: 262140
net.inet.ip.fw.dyn_ack_lifetime: 300
net.inet.ip.fw.dyn_syn_lifetime: 20
net.inet.ip.fw.dyn_fin_lifetime: 1
net.inet.ip.fw.dyn_rst_lifetime: 1
net.inet.ip.fw.dyn_udp_lifetime: 10
net.inet.ip.fw.dyn_short_lifetime: 5
net.inet.ip.fw.dyn_keepalive: 1
net.inet.ip.fw.enable: 1
------------------------------------------
В === Date 24-06-2015 12:52:00 ===== недовыполнился sysctl -a | grep ip.fw, т.к. нет секции.
Это момент зависания.
До и после не вижу ни чего сверхестесственного.
Может еще что можно добавить ?


Гость
проходил мимо

Периодически падает сервер

Непрочитанное сообщение Гость » 2015-06-24 17:48:27

память явно куда то там убежала, и наверняка убегает так же каждый раз
это должно быть где то отражено

как вариант собрать ядро с дебагером и с дебагом
если упадет или перегрузится то может выпадет в дебагер, и через физ консоль можно будет посмотреть на чем слетело

Аватара пользователя
kharkov_max
капитан
Сообщения: 1862
Зарегистрирован: 2008-10-03 14:56:40

Периодически падает сервер

Непрочитанное сообщение kharkov_max » 2015-06-24 18:36:31

В консоли только

Код: Выделить всё

ipfw: pullup failed
Во всех логах пусто ...

А как поставить убегающую память в монитор ?



Аватара пользователя
kharkov_max
капитан
Сообщения: 1862
Зарегистрирован: 2008-10-03 14:56:40

Периодически падает сервер

Непрочитанное сообщение kharkov_max » 2015-06-25 13:15:30

kharkov_max писал(а):Фаерволы на серверах разные, один "тяжелый", другой "легкий", из этого делаю вывод что проблема не в фаерволе
Поставил логирование vnstat -m и vnstat -z, посмотрим что там растет ...

Гость
проходил мимо

Периодически падает сервер

Непрочитанное сообщение Гость » 2015-06-25 15:00:49

проблема в фаерволе
отключите на одном из серверов фаервол ВООБЩЕ, и он перестанет падать

а вообще смысла в фаерволе нет если он не маскарад строит, что то запрещать там, какие то динамик руле городить, вот оно и течет

Аватара пользователя
kharkov_max
капитан
Сообщения: 1862
Зарегистрирован: 2008-10-03 14:56:40

Периодически падает сервер

Непрочитанное сообщение kharkov_max » 2015-06-25 15:26:58

Гость писал(а):проблема в фаерволе
отключите на одном из серверов фаервол ВООБЩЕ, и он перестанет падать

а вообще смысла в фаерволе нет если он не маскарад строит, что то запрещать там, какие то динамик руле городить, вот оно и течет
Ну как бы это шлюзы, и как минимум NAT нужен.
+ требование ограничение между локальными сетями, на одном их несколько ...