Страница 1 из 2
reboot after panic
Добавлено: 2007-12-23 12:55:06
Burn_
С недавних пор начал перезагружаться сервер (FreeBSD 6.2-RELEASE).
В логах:
Код: Выделить всё
savecore: reboot after panic: page fault
savecore: writing compressed core to vmcore.33.gz
Возможности проТестить память, винт и т.п. с загрузочного диска пока нет
Может, кто подскажет программки подобные MHDD и MemTest на FreeBSD.
Кроме железа из-за чего могла произойти перезагрузка?
Вариант с пропаданием эл. энергии и нажатием reset'а отбрасываю, т.к. при очередной перезагрузке находился возле сервера.
Re: reboot after panic
Добавлено: 2007-12-23 13:48:46
vintovkin
загрузочного диска пока нет
ftp://ftp.freebsd.org/pub/FreeBSD/relea ... -disc1.iso
fsck -f #это винт отрихтует(но проблема кажется не в этом)
какая температура камня и мамки?
как часто это происходит?
какой сервер на фряхе?
Re: reboot after panic
Добавлено: 2007-12-23 14:18:44
Burn_
vintovkin писал(а):
какая температура камня и мамки?
как часто это происходит?
какой сервер на фряхе?
Сами образы фряхи и диски с программами для теста есть, нет возможности ими воспользоваться из-за отсутствия на сервере CD-ROM'а, да и сервак можно только ночью выключить. Основная его задача - маршрутизация сети примерно из 1000 машин.
Перезагружался два дня подряд около 21:10 (+/- 10 мин.), а сегодня примерно в 14:25.
Температуру только средствами БИОСа могу посмотреть, но опять же только ночью. Если подскажите программу под BSD, буду признателен.
Re: reboot after panic
Добавлено: 2007-12-23 14:38:18
Toptyg
mbmon
Re: reboot after panic
Добавлено: 2007-12-23 15:50:58
Burn_
Toptyg писал(а):mbmon
#mbmon
Код: Выделить всё
Temp.= 40.0, 43.0, 60.0; Rot.= 2556, 3835, 0
Vcore = 1.25, 1.79; Volt. = 3.36, 6.85, 11.19, -3.45, -4.58
Temp.= 40.0, 35.0, 62.0; Rot.= 2518, 3924, 0
Vcore = 1.26, 1.79; Volt. = 3.36, 6.85, 11.25, -3.45, -4.58
Temp.= 40.0, 25.0, 61.0; Rot.= 2518, 3835, 0
Vcore = 1.25, 1.79; Volt. = 3.34, 6.85, 11.19, -3.34, -4.55
Re: reboot after panic
Добавлено: 2007-12-23 18:31:24
vintovkin
Toptyg писал(а):mbmon
хорошая прога,
но она под мать.
есть под камень прога?
Re: reboot after panic
Добавлено: 2007-12-23 18:32:43
vintovkin
Burn_ писал(а):vintovkin писал(а):
какая температура камня и мамки?
как часто это происходит?
какой сервер на фряхе?
Сами образы фряхи и диски с программами для теста есть, нет возможности ими воспользоваться из-за отсутствия на сервере CD-ROM'а, да и сервак можно только ночью выключить. Основная его задача - маршрутизация сети примерно из 1000 машин.
Перезагружался два дня подряд около 21:10 (+/- 10 мин.), а сегодня примерно в 14:25.
Температуру только средствами БИОСа могу посмотреть, но опять же только ночью. Если подскажите программу под BSD, буду признателен.
удалённо заходят на неё?
в кроне чисто?
Re: reboot after panic
Добавлено: 2007-12-23 18:43:26
Burn_
vintovkin писал(а):
удалённо заходят на неё?
в кроне чисто?
Удаленно не могли перезагрузить, в логах есть дисмоунт.
В кроне скрипты для cacti, но с ними он без проблем работал около полугода.
Re: reboot after panic
Добавлено: 2007-12-23 20:18:06
Alex Keda
ну, если софт не менялся - железка подыхает.
Может какая-нить плата расширения...
Re: reboot after panic
Добавлено: 2007-12-24 7:22:31
Burn_
lissyara писал(а):ну, если софт не менялся
Из софта только поставил еще один cacti и прикрутил к нему плагины. Та же версия cacti с подобными настройками и плагинами стоит еще на одной машине - работает без проблем.
На старом cacti рвутся графики и в логе:
Код: Выделить всё
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1846] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1847] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1848] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1849] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1850] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1851] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1852] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:07 xxx Cacti[26051]: CMDPHP: Host[101] DS[1853] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:08 xxx Cacti[26051]: CMDPHP: Host[101] DS[1854] WARNING: Result from SNMP not valid. Partial Result:
Dec 24 10:00:12 xxx Cacti[26223]: CMDPHP: ERROR: SQL Cell Failed "select field_value from host_snmp_cache where host_id=2 and field_name='hrStorageAllocationUnits' and snmp_index='1'"
Dec 24 10:00:12 xxx Cacti[26223]: CMDPHP: ERROR: SQL Cell Failed "select field_value from host_snmp_cache where host_id=2 and field_name='hrStorageAllocationUnits' and snmp_index='2'"
Dec 24 10:00:12 xxx Cacti[26223]: CMDPHP: ERROR: SQL Cell Failed "select field_value from host_snmp_cache where host_id=2 and field_name='hrStorageAllocationUnits' and snmp_index='2'"
Dec 24 10:00:12 xxx Cacti[26223]: CMDPHP: ERROR: SQL Cell Failed "select field_value from host_snmp_cache where host_id=2 and field_name='hrStorageAllocationUnits' and snmp_index='3'"
Re: reboot after panic
Добавлено: 2008-01-20 20:52:18
Burn_
lissyara писал(а):ну, если софт не менялся - железка подыхает.
Может какая-нить плата расширения...
ПроТестил железо, проблем не нашел...
Может ли падать серве из-за атак или трояна ? Примерно в тоже время в логи начали падать месаги об подмене МАСка, как позже выяснилось это троян живущий у пользователей сети (примерно на 20-ти ПК), этот троян снифит сеть, подменивает МАС и перехватывает пакеты подменяя код WEB-страниц дописывая Ява-скрипт ведущий на сайт с трояном.
Если из-за этого может падать сервер, то как можно это предотвратить ?
Re: reboot after panic
Добавлено: 2008-02-18 21:01:45
Burn_
Заменил все железо, сервер как падал так и падает
Возможно железо не справляется с обслуживанием большого кол-ва пользователей. Падение сервера наблюдалось во время массовой скачки файлов с серверов контента, при этом top показывает 28.2-42.3% interrupt, а сет. карта почти не привышает 100Мб/с (карта 1Гб/с).
У кого есть опыт настройки сетей более чем на 1000 машин ?
Как оптимизировать сервер (FreeBSD) для работы с таким кол-вом машин ?
Какие параметры железки минимальны ?
Re: reboot after panic
Добавлено: 2008-02-18 23:37:07
Daywalker
Burn_ писал(а):
#mbmon
Код: Выделить всё
...
Temp.= 40.0, 35.0, 62.0; Rot.= 2518, 3924, 0
Vcore = 1.26, 1.79; Volt. = 3.36, 6.85, 11.25, -3.45, -4.58
...
Не нравится температура 62 гр. В BIOS'е может стоять ограничение, что при достижении определенной температуры ребутать или отключать. Обрати внимание.
И еще напряжение
11.25 В какое-то маленькое. Может во время нагрузки проседает еще больше и это сказывается на железе и оно ребутается.
Re: reboot after panic
Добавлено: 2008-02-19 0:47:57
Alex Keda
у нас на файлопомойке самба - человек 800 там копошиться.
дженерик - единственное что сделал - увеличил керн.максфилес - ибо постоянно тысяч 40-50 открытых файлов
Re: reboot after panic
Добавлено: 2008-02-19 8:41:55
Burn_
На новом железе температура:
Код: Выделить всё
# mbmon
Temp.= 30.0, 38.0, 27.5; Rot.= 0, 2205, 0
Vcore = 1.39, 3.18; Volt. = 3.47, 5.05, 11.73, -13.52, -7.66
В БИОСе перезагрузка при перегреве отключена.
В sysctl.conf добавил:
Код: Выделить всё
# cat /etc/sysctl.conf
net.inet.ip.fw.one_pass=0
net.inet.tcp.msl=7500
net.inet.tcp.blackhole=2
net.inet.udp.blackhole=1
net.inet.icmp.icmplim=50
kern.ipc.somaxconn=32768
kern.polling.enable=1
kern.polling.user_frac=50
security.bsd.see_other_uids=0
net.inet.icmp.drop_redirect=1
net.inet.icmp.log_redirect=1
net.inet.ip.redirect=0
net.inet.carp.preempt=1
Не помогло.
Заметил большие задержки при прерывании.
Код: Выделить всё
# vmstat -i
interrupt total rate
irq1: atkbd0 1 0
irq15: ata1 165868 15
irq21: em0 1 0
cpu0: timer 21843117 1999
Total 22008987 2015
и это за 3-и часа работы...
Можен проблема быть в SATA , а точнее из-за того что 2-а винта обьединены в рэйд0 ?
Гдето читал, что были проблемы связанные именно с 2-я hdd SATA.
Re: reboot after panic
Добавлено: 2008-02-19 10:12:11
Adekamer
эта - а разве во фре при падении не создается коредамп шоб мона было понять че ему не понрвилось то ?
Re: reboot after panic
Добавлено: 2008-02-19 10:36:01
Alex Keda
Adekamer писал(а):эта - а разве во фре при падении не создается коредамп шоб мона было понять че ему не понрвилось то ?
создаётся.
если свапу достаточно.
============
думаю, проблема в железе.
Re: reboot after panic
Добавлено: 2008-02-19 11:08:10
Burn_
Adekamer писал(а):эта - а разве во фре при падении не создается коредамп шоб мона было понять че ему не понрвилось то ?
КореДамп создается, уже штук 65-70, но что с ними делать, пока не знаю

.
Научите, буду премного благодарен !!!
Re: reboot after panic
Добавлено: 2008-02-19 12:03:33
Adekamer
а gdb во фре есть ? если есть - пользоваьт его

Re: reboot after panic
Добавлено: 2008-02-19 12:04:34
Adekamer
научить пользовать gdb ?
Re: reboot after panic
Добавлено: 2008-02-19 12:06:06
Andy
Adekamer писал(а):научить пользовать gdb ?
Да.
Re: reboot after panic
Добавлено: 2008-02-19 12:06:12
Adekamer
хотя я как понял - здесь принято гадать на гуще - смотреть температуру дисков и камушка и пытаться читать логи

Re: reboot after panic
Добавлено: 2008-02-19 12:11:24
Andy
Так что там, с обучением пользованием gdb?
Re: reboot after panic
Добавлено: 2008-02-19 12:13:56
Adekamer
Andy-Борман - статьи от меня не дождесси

направление я дал - дальше пусть мучают свои мозги или переходят на виндовс

Re: reboot after panic
Добавлено: 2008-02-19 12:15:11
Andy
Это я понял что недождусь, после того как тобою было обещано написать про bounding,
и так этого и не сделано...

p.S: А что нужно искать то, среди комманд ассемблера?
