Страница 1 из 2

reboot after panic

Добавлено: 2007-12-23 12:55:06
Burn_
С недавних пор начал перезагружаться сервер (FreeBSD 6.2-RELEASE).
В логах:

Код: Выделить всё

savecore: reboot after panic: page fault
savecore: writing compressed core to vmcore.33.gz
Возможности проТестить память, винт и т.п. с загрузочного диска пока нет :(
Может, кто подскажет программки подобные MHDD и MemTest на FreeBSD.

Кроме железа из-за чего могла произойти перезагрузка?
Вариант с пропаданием эл. энергии и нажатием reset'а отбрасываю, т.к. при очередной перезагрузке находился возле сервера.

Re: reboot after panic

Добавлено: 2007-12-23 13:48:46
vintovkin
загрузочного диска пока нет
ftp://ftp.freebsd.org/pub/FreeBSD/relea ... -disc1.iso

fsck -f #это винт отрихтует(но проблема кажется не в этом)

какая температура камня и мамки?
как часто это происходит?
какой сервер на фряхе?

Re: reboot after panic

Добавлено: 2007-12-23 14:18:44
Burn_
vintovkin писал(а): какая температура камня и мамки?
как часто это происходит?
какой сервер на фряхе?
Сами образы фряхи и диски с программами для теста есть, нет возможности ими воспользоваться из-за отсутствия на сервере CD-ROM'а, да и сервак можно только ночью выключить. Основная его задача - маршрутизация сети примерно из 1000 машин.
Перезагружался два дня подряд около 21:10 (+/- 10 мин.), а сегодня примерно в 14:25.
Температуру только средствами БИОСа могу посмотреть, но опять же только ночью. Если подскажите программу под BSD, буду признателен.

Re: reboot after panic

Добавлено: 2007-12-23 14:38:18
Toptyg
mbmon

Re: reboot after panic

Добавлено: 2007-12-23 15:50:58
Burn_
Toptyg писал(а):mbmon
#mbmon

Код: Выделить всё

Temp.= 40.0, 43.0, 60.0; Rot.= 2556, 3835,    0
Vcore = 1.25, 1.79; Volt. = 3.36, 6.85, 11.19,  -3.45, -4.58

Temp.= 40.0, 35.0, 62.0; Rot.= 2518, 3924,    0
Vcore = 1.26, 1.79; Volt. = 3.36, 6.85, 11.25,  -3.45, -4.58

Temp.= 40.0, 25.0, 61.0; Rot.= 2518, 3835,    0
Vcore = 1.25, 1.79; Volt. = 3.34, 6.85, 11.19,  -3.34, -4.55

Re: reboot after panic

Добавлено: 2007-12-23 18:31:24
vintovkin
Toptyg писал(а):mbmon
хорошая прога,
но она под мать.

есть под камень прога?

Re: reboot after panic

Добавлено: 2007-12-23 18:32:43
vintovkin
Burn_ писал(а):
vintovkin писал(а): какая температура камня и мамки?
как часто это происходит?
какой сервер на фряхе?
Сами образы фряхи и диски с программами для теста есть, нет возможности ими воспользоваться из-за отсутствия на сервере CD-ROM'а, да и сервак можно только ночью выключить. Основная его задача - маршрутизация сети примерно из 1000 машин.
Перезагружался два дня подряд около 21:10 (+/- 10 мин.), а сегодня примерно в 14:25.
Температуру только средствами БИОСа могу посмотреть, но опять же только ночью. Если подскажите программу под BSD, буду признателен.
удалённо заходят на неё?
в кроне чисто?

Re: reboot after panic

Добавлено: 2007-12-23 18:43:26
Burn_
vintovkin писал(а): удалённо заходят на неё?
в кроне чисто?
Удаленно не могли перезагрузить, в логах есть дисмоунт.
В кроне скрипты для cacti, но с ними он без проблем работал около полугода.

Re: reboot after panic

Добавлено: 2007-12-23 20:18:06
Alex Keda
ну, если софт не менялся - железка подыхает.
Может какая-нить плата расширения...

Re: reboot after panic

Добавлено: 2007-12-24 7:22:31
Burn_
lissyara писал(а):ну, если софт не менялся
Из софта только поставил еще один cacti и прикрутил к нему плагины. Та же версия cacti с подобными настройками и плагинами стоит еще на одной машине - работает без проблем.
На старом cacti рвутся графики и в логе:

Код: Выделить всё

Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1846] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1847] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1848] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1849] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1850] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1851] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1852] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1853] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:08 xxx Cacti[26051]: CMDPHP: Host[101] DS[1854] WARNING: Result from SNMP not valid.  Partial Result:
Dec 24 10:00:12 xxx Cacti[26223]: CMDPHP: ERROR: SQL Cell Failed "select field_value from host_snmp_cache where host_id=2 and field_name='hrStorageAllocationUnits' and snmp_index='1'"
Dec 24 10:00:12 xxx Cacti[26223]: CMDPHP: ERROR: SQL Cell Failed "select field_value from host_snmp_cache where host_id=2 and field_name='hrStorageAllocationUnits' and snmp_index='2'"
Dec 24 10:00:12 xxx Cacti[26223]: CMDPHP: ERROR: SQL Cell Failed "select field_value from host_snmp_cache where host_id=2 and field_name='hrStorageAllocationUnits' and snmp_index='2'"
Dec 24 10:00:12 xxx Cacti[26223]: CMDPHP: ERROR: SQL Cell Failed "select field_value from host_snmp_cache where host_id=2 and field_name='hrStorageAllocationUnits' and snmp_index='3'"

Re: reboot after panic

Добавлено: 2008-01-20 20:52:18
Burn_
lissyara писал(а):ну, если софт не менялся - железка подыхает.
Может какая-нить плата расширения...
ПроТестил железо, проблем не нашел...
Может ли падать серве из-за атак или трояна ? Примерно в тоже время в логи начали падать месаги об подмене МАСка, как позже выяснилось это троян живущий у пользователей сети (примерно на 20-ти ПК), этот троян снифит сеть, подменивает МАС и перехватывает пакеты подменяя код WEB-страниц дописывая Ява-скрипт ведущий на сайт с трояном.
Если из-за этого может падать сервер, то как можно это предотвратить ?

Re: reboot after panic

Добавлено: 2008-02-18 21:01:45
Burn_
Заменил все железо, сервер как падал так и падает :(
Возможно железо не справляется с обслуживанием большого кол-ва пользователей. Падение сервера наблюдалось во время массовой скачки файлов с серверов контента, при этом top показывает 28.2-42.3% interrupt, а сет. карта почти не привышает 100Мб/с (карта 1Гб/с).
У кого есть опыт настройки сетей более чем на 1000 машин ?
Как оптимизировать сервер (FreeBSD) для работы с таким кол-вом машин ?
Какие параметры железки минимальны ?

Re: reboot after panic

Добавлено: 2008-02-18 23:37:07
Daywalker
Burn_ писал(а): #mbmon

Код: Выделить всё

...

Temp.= 40.0, 35.0, 62.0; Rot.= 2518, 3924,    0
Vcore = 1.26, 1.79; Volt. = 3.36, 6.85, 11.25,  -3.45, -4.58
...
Не нравится температура 62 гр. В BIOS'е может стоять ограничение, что при достижении определенной температуры ребутать или отключать. Обрати внимание.
И еще напряжение 11.25 В какое-то маленькое. Может во время нагрузки проседает еще больше и это сказывается на железе и оно ребутается.

Re: reboot after panic

Добавлено: 2008-02-19 0:47:57
Alex Keda
у нас на файлопомойке самба - человек 800 там копошиться.
дженерик - единственное что сделал - увеличил керн.максфилес - ибо постоянно тысяч 40-50 открытых файлов

Re: reboot after panic

Добавлено: 2008-02-19 8:41:55
Burn_
На новом железе температура:

Код: Выделить всё

# mbmon
Temp.= 30.0, 38.0, 27.5; Rot.=    0, 2205,    0
Vcore = 1.39, 3.18; Volt. = 3.47, 5.05, 11.73, -13.52, -7.66
В БИОСе перезагрузка при перегреве отключена.
В sysctl.conf добавил:

Код: Выделить всё

# cat /etc/sysctl.conf
net.inet.ip.fw.one_pass=0
net.inet.tcp.msl=7500
net.inet.tcp.blackhole=2
net.inet.udp.blackhole=1
net.inet.icmp.icmplim=50
kern.ipc.somaxconn=32768
kern.polling.enable=1
kern.polling.user_frac=50
security.bsd.see_other_uids=0
net.inet.icmp.drop_redirect=1
net.inet.icmp.log_redirect=1
net.inet.ip.redirect=0
net.inet.carp.preempt=1
Не помогло.

Заметил большие задержки при прерывании.

Код: Выделить всё

# vmstat -i
interrupt                          total       rate
irq1: atkbd0                           1          0
irq15: ata1                       165868         15
irq21: em0                             1          0
cpu0: timer                     21843117       1999
Total                           22008987       2015
и это за 3-и часа работы...
Можен проблема быть в SATA , а точнее из-за того что 2-а винта обьединены в рэйд0 ?
Гдето читал, что были проблемы связанные именно с 2-я hdd SATA.

Re: reboot after panic

Добавлено: 2008-02-19 10:12:11
Adekamer
эта - а разве во фре при падении не создается коредамп шоб мона было понять че ему не понрвилось то ?

Re: reboot after panic

Добавлено: 2008-02-19 10:36:01
Alex Keda
Adekamer писал(а):эта - а разве во фре при падении не создается коредамп шоб мона было понять че ему не понрвилось то ?
создаётся.
если свапу достаточно.
============
думаю, проблема в железе.

Re: reboot after panic

Добавлено: 2008-02-19 11:08:10
Burn_
Adekamer писал(а):эта - а разве во фре при падении не создается коредамп шоб мона было понять че ему не понрвилось то ?
КореДамп создается, уже штук 65-70, но что с ними делать, пока не знаю :( .
Научите, буду премного благодарен !!!

Re: reboot after panic

Добавлено: 2008-02-19 12:03:33
Adekamer
а gdb во фре есть ? если есть - пользоваьт его :)

Re: reboot after panic

Добавлено: 2008-02-19 12:04:34
Adekamer
научить пользовать gdb ?

Re: reboot after panic

Добавлено: 2008-02-19 12:06:06
Andy
Adekamer писал(а):научить пользовать gdb ?
Да.

Re: reboot after panic

Добавлено: 2008-02-19 12:06:12
Adekamer
хотя я как понял - здесь принято гадать на гуще - смотреть температуру дисков и камушка и пытаться читать логи :)

Re: reboot after panic

Добавлено: 2008-02-19 12:11:24
Andy
Так что там, с обучением пользованием gdb?

Re: reboot after panic

Добавлено: 2008-02-19 12:13:56
Adekamer
Andy-Борман - статьи от меня не дождесси :)
направление я дал - дальше пусть мучают свои мозги или переходят на виндовс :)

Re: reboot after panic

Добавлено: 2008-02-19 12:15:11
Andy
Это я понял что недождусь, после того как тобою было обещано написать про bounding,
и так этого и не сделано... :lol:
p.S: А что нужно искать то, среди комманд ассемблера? :)