Страница 1 из 1

pending sectors, server reboot, gmirror degraded

Добавлено: 2009-04-22 7:13:13
paix
Есть сервак FreeBSD 6.4-RELEASE-p3 i386 с 2мя винтами в gmirror.

Проблем несколько:
1. Сервак начал часто и спонтанно ребутится. (иногда несколько раз в день)
2. Рейд постоянно разваливается после ребутов
3. smart ругается на ad10 "Currently unreadable (pending) sectors"

Но такое чувство что все эти проблемы связаны между собой...

Вот такое видно после очередного ребута:
т.е. ругань смарта предшествует. Короткий self test тоже не проходит по этому винту, шля репорт о error 'Device: /dev/ad10, 2 Currently unreadable (pending) sectors'

# dmesg

Код: Выделить всё

Apr 22 05:19:28 srv smartd[847]: Device: /dev/ad10, 2 Currently unreadable (pending) sectors
Apr 22 05:24:28 srv smartd[847]: Device: /dev/ad10, 2 Currently unreadable (pending) sectors
Apr 22 05:29:28 srv smartd[847]: Device: /dev/ad10, 2 Currently unreadable (pending) sectors
Apr 22 05:39:27 srv last message repeated 2 times
Apr 22 05:49:28 srv last message repeated 2 times
Apr 22 05:59:29 srv last message repeated 2 times
Apr 22 06:20:54 srv syslogd: kernel boot file is /boot/kernel/kernel

При этом рейд заканомерно разваливается: (типа ad8 is stale)

# dmesg:

Код: Выделить всё

ad8: 305245MB <SAMSUNG HD321KJ CP100-12> at ata4-master SATA150
GEOM_MIRROR: Device gm0 created (id=1752941073).
GEOM_MIRROR: Device gm0: provider ad8 detected.
ad10: 305245MB <SAMSUNG HD321KJ CP100-12> at ata5-master SATA150
GEOM_MIRROR: Device gm0: provider ad10 detected.
GEOM_MIRROR: Device gm0: provider ad10 activated.
GEOM_MIRROR: Device gm0: provider ad8 is stale.
GEOM_MIRROR: Device gm0: provider mirror/gm0 launched.
SMP: AP CPU #1 Launched!
Trying to mount root from ufs:/dev/mirror/gm0s1a
WARNING: / was not properly dismounted
# gmirror list

Код: Выделить всё

Geom name: gm0
State: DEGRADED
Components: 2
Balance: round-robin
Slice: 4096
Flags: NOAUTOSYNC
GenID: 4
SyncID: 17
ID: 1752941073
Providers:
1. Name: mirror/gm0
   Mediasize: 320072932864 (298G)
   Sectorsize: 512
   Mode: r6w6e7
Consumers:
1. Name: ad8
   Mediasize: 320072933376 (298G)
   Sectorsize: 512
   Mode: r1w1e1
   State: STALE
   Priority: 0
   Flags: SYNCHRONIZING
   GenID: 4
   SyncID: 16
   ID: 1021375928
2. Name: ad10
   Mediasize: 320072933376 (298G)
   Sectorsize: 512
   Mode: r1w1e1
   State: ACTIVE
   Priority: 0
   Flags: DIRTY
   GenID: 4
   SyncID: 17
   ID: 3314192503

Мне очень непонятно, если таки проблемы с винтом ad10, то почему не он выпадает из рейда, а ад8 ?

# smartctl -A /dev/ad8

Код: Выделить всё

smartctl version 5.37 [i386-portbld-freebsd6.1] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       78
  3 Spin_Up_Time            0x0007   100   100   015    Pre-fail  Always       -       2112
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       20
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   253   253   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       4047
 10 Spin_Retry_Count        0x0033   253   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       1
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       20
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       464770596
187 Unknown_Attribute       0x0032   099   099   000    Old_age   Always       -       8716290
188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       3
190 Temperature_Celsius     0x0022   083   061   000    Old_age   Always       -       17
194 Temperature_Celsius     0x0022   187   121   000    Old_age   Always       -       17
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       464770596
196 Reallocated_Event_Count 0x0032   253   253   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   253   253   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
202 TA_Increase_Count       0x0032   253   253   000    Old_age   Always       -       0
# smartctl -A /dev/ad10

Код: Выделить всё

smartctl version 5.37 [i386-portbld-freebsd6.1] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       108
  3 Spin_Up_Time            0x0007   100   100   015    Pre-fail  Always       -       2112
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       17
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   253   253   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       4045
 10 Spin_Retry_Count        0x0033   253   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   253   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       17
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       824253489
187 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       786433
188 Unknown_Attribute       0x0032   253   253   000    Old_age   Always       -       0
190 Temperature_Celsius     0x0022   083   068   000    Old_age   Always       -       17
194 Temperature_Celsius     0x0022   184   142   000    Old_age   Always       -       18
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       824253489
196 Reallocated_Event_Count 0x0032   253   253   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       2
198 Offline_Uncorrectable   0x0030   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
202 TA_Increase_Count       0x0032   253   253   000    Old_age   Always       -       0

Re: pending sectors, server reboot, gmirror degraded

Добавлено: 2009-04-22 7:25:48
paix
http://www.opennet.ru/openforum/vsluhfo ... 66964.html

вот тут народ похожее обсуждает,и lavr уважаемый человек...
т.е. диск со всякими pending sectors нужно срочно менять якобы.... (действительно ли?)
но в датацентр я попаду не скоро.

Мне приходит на ум идея пересобрать а потом развалить рейд, оставив активным только ad8, а ad10 с pending sectors сделать неактивным. Непонятно почему система при загрузке выкидывает нормальный ad8 из рейда, а не ad10...

Да и бутить систему с degraded рейд очень непредсказуемое занятие... Вот недавно два раза ядро пересобрал и проинсталил, а загружалось все равно старое с первого degraded consumer...

Re: pending sectors, server reboot, gmirror degraded

Добавлено: 2009-04-22 7:59:59
Alex Keda
нужно.
ничем хорошим жизнь этого диска не кончиться =)
как временный вариант - попросить чтоб в датацентре вставили диск с mhdd в CD-ROM и затереть его со включенным SMART
бывает помогает довольно на долго.
тока делатьь лучше самому а не датацентровцам - могут затереть не тот или оба =))

Re: pending sectors, server reboot, gmirror degraded

Добавлено: 2009-04-22 8:35:15
paix
датацентр дешевый, айпиквма нет. Да и в сервере сдрома тоже нет.

Только что третий раз за ночь отребутился...
до этого сервак простоял с айптаймом дней 250 а потом бац и резко начались проблемы.

Сейчас попробую собрать рейд и искллючить из него ad10.. других идей нет.

Re: pending sectors, server reboot, gmirror degraded

Добавлено: 2009-04-22 8:58:13
Alex Keda
удачи...

Re: pending sectors, server reboot, gmirror degraded

Добавлено: 2009-04-22 19:53:11
paix
с переменным успехом.

удалил ад10 из рейда - все работает на ад8.
Но глобально не помогло.

После первого ребута, я даже исключил ад10 из smartd.conf чтобы никаких обращений к нему не было.

но все равно недавно сервак ушел в ребут...В логах 0.

Re: freebsd panics

Добавлено: 2009-05-17 9:30:32
paix
Продолжение.

Предистория.
глюки начались спонтанно. Серв (6.2p8 i386) стал ребутится (приблизительно с 0409 ). (до этого работал нормально продолжительное время.)
накатились до 6.4p3 - не помогло.
поменяли железо (переставили винт с OS в другой рабочий серв, в другом месте в стойке) - не помогло.
перенесли (dump\restore) OS на новый винт - не помогло.
еще раз накатились до 6.4p4 - не помогло.

накатился до 7.2 (стандартным способом)
(порты пока не пересобирал, работают на старых либах от 6ки)


# KERCONF: GENERIC + custom

Код: Выделить всё

	makeoptions    DEBUG=-g
	#--------
	options         DEVICE_POLLING
	options         HZ=1000
	options         MROUTING
	options         IPFIREWALL
	options         IPFIREWALL_DEFAULT_TO_ACCEPT
	options         IPSTEALTH
	options         DUMMYNET
	options          ACCEPT_FILTER_DATA
	options          ACCEPT_FILTER_HTTP
	device           pf
	device           pflog
	options         QUOTA             
	#---------
# sysctl.conf:

Код: Выделить всё

	security.bsd.see_other_uids=0
	security.bsd.see_other_gids=0
	security.bsd.unprivileged_read_msgbuf=0
	security.bsd.unprivileged_proc_debug=0
	kern.ipc.somaxconn=4096
	kern.ipc.maxsockets=204800    
	net.inet.tcp.sendspace=16384    
	net.inet.tcp.recvspace=8192     
	kern.polling.enable=1             #  currently - 0
	net.inet.ip.fw.dyn_max=32768
	net.inet.ip.fw.dyn_keepalive=0  
	net.inet.tcp.msl=7500   
	net.inet.icmp.icmplim=150
	net.inet.icmp.icmplim_output=0
	net.inet.tcp.blackhole=2
	net.inet.udp.blackhole=1
	net.inet.icmp.drop_redirect=1
	net.inet.ip.redirect=0
	net.inet.icmp.bmcastecho=0
	net.inet.icmp.maskrepl=0
# make.conf:

Код: Выделить всё

	NO_CPU_CFLAGS=true
	CFLAGS=-O -pipe -march=i686 -mtune=i686
#backtrace

Код: Выделить всё

#--------------------
May 16 17:16:13 srv savecore: reboot after panic: page fault
May 16 17:16:13 srv savecore: writing core to vmcore.0

# cd /var/crashe
# kgdb -q /boot/kernel/kernel vmcore.0 | tee backtrace1.txt
	Reading symbols from /boot/kernel/acpi.ko...Reading symbols from /boot/kernel/acpi.ko.symbols...done.
	done.
	Loaded symbols for /boot/kernel/acpi.ko
	Reading symbols from /boot/kernel/nullfs.ko...Reading symbols from /boot/kernel/nullfs.ko.symbols...done.
	done.
	Loaded symbols for /boot/kernel/nullfs.ko
	Reading symbols from /boot/kernel/fdescfs.ko...Reading symbols from /boot/kernel/fdescfs.ko.symbols...done.
	done.
	Loaded symbols for /boot/kernel/fdescfs.ko
	#0  doadump () at pcpu.h:196
	in pcpu.h

(kgdb) bt
	#0  doadump () at pcpu.h:196
	#1  0xc0814467 in boot (howto=260) at /usr/src/sys/kern/kern_shutdown.c:418
	#2  0xc0814739 in panic (fmt=) at /usr/src/sys/kern/kern_shutdown.c:574
	#3  0xc0b2af4c in trap_fatal (frame=0xc78698d8, eva=11) at /usr/src/sys/i386/i386/trap.c:939
	#4  0xc0b2b1d0 in trap_pfault (frame=0xc78698d8, usermode=0, eva=11) at /usr/src/sys/i386/i386/trap.c:852
	#5  0xc0b2bb7c in trap (frame=0xc78698d8) at /usr/src/sys/i386/i386/trap.c:530
	#6  0xc0b1028b in calltrap () at /usr/src/sys/i386/i386/exception.s:159
	#7  0xc08bed67 in rn_match (v_arg=0xc0ccd06c, head=0xc8165e00) at /usr/src/sys/net/radix.c:262
	#8  0xc04ba003 in pfr_match_addr (kt=0xc83554d8, a=0xcc69601c, af=2 '\002') at /usr/src/sys/contrib/pf/net/pf_table.c:2104
	#9  0xc04a3feb in pf_test_udp (rm=0xc7869ae8, sm=0xc7869ae4, direction=1, kif=0xc7ebfe00, m=0xccf39b00, off=20, h=0xcc696010, pd=0xc7869a80,
	am=0xc7869aec, rsm=0xc7869ae0, ifq=0x0, inp=0x0) at /usr/src/sys/contrib/pf/net/pf.c:3729
	#10 0xc04a85ff in pf_test (dir=1, ifp=0xc7e78800, m0=0xc7869b44, eh=0x0, inp=0x0) at /usr/src/sys/contrib/pf/net/pf.c:6941
	#11 0xc04ad996 in pf_check_in (arg=0x0, m=0xc7869b44, ifp=0xc7e78800, dir=1, inp=0x0) at /usr/src/sys/contrib/pf/net/pf_ioctl.c:3647
	#12 0xc08be3a8 in pfil_run_hooks (ph=0xc0d0da40, mp=0xc7869ba0, ifp=0xc7e78800, dir=1, inp=0x0) at /usr/src/sys/net/pfil.c:78
	#13 0xc09036aa in ip_input (m=0xccf39b00) at /usr/src/sys/netinet/ip_input.c:416
	#14 0xc08bcb25 in netisr_dispatch (num=2, m=0xccf39b00) at /usr/src/sys/net/netisr.c:185
	#15 0xc08b2ac1 in ether_demux (ifp=0xc7e78800, m=0xccf39b00) at /usr/src/sys/net/if_ethersubr.c:834
	#16 0xc08b2eb3 in ether_input (ifp=0xc7e78800, m=0xccf39b00) at /usr/src/sys/net/if_ethersubr.c:692
	#17 0xc0afda0b in nfe_rxeof (sc=0xc7e90000, count=3) at /usr/src/sys/dev/nfe/if_nfe.c:2116
	#18 0xc0afdff2 in nfe_poll (ifp=0xc7e78800, cmd=POLL_ONLY, count=5) at /usr/src/sys/dev/nfe/if_nfe.c:1570
	#19 0xc080777b in netisr_poll () at /usr/src/sys/kern/kern_poll.c:432
	#20 0xc08bcd92 in swi_net (dummy=0x0) at /usr/src/sys/net/netisr.c:254
	#21 0xc07f130b in ithread_loop (arg=0xc7c9a260) at /usr/src/sys/kern/kern_intr.c:1088
	#22 0xc07ede59 in fork_exit (callout=0xc07f1150 <ithread_loop>, arg=0xc7c9a260, frame=0xc7869d38) at /usr/src/sys/kern/kern_fork.c:810
	#23 0xc0b10300 in fork_trampoline () at /usr/src/sys/i386/i386/exception.s:264

(kgdb) bt full
	#0  doadump () at pcpu.h:196
	No locals.
	#1  0xc0814467 in boot (howto=260) at /usr/src/sys/kern/kern_shutdown.c:418
	_giantcnt = (kgdb) quit
	
(kgdb) printf "%s", (char *)msgbufp->msg_ptr
	Copyright (c) 1992-2009 The FreeBSD Project.
	Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994
		The Regents of the University of California. All rights reserved.
	FreeBSD is a registered trademark of The FreeBSD Foundation.
	FreeBSD 7.2-RELEASE #0: Fri May 15 09:19:22 EEST 2009
	root@srv:/usr/obj/usr/src/sys/srv7
	Timecounter "i8254" frequency 1193182 Hz quality 0
	CPU: AMD Athlon(tm) 64 X2 Dual Core Processor 4200+ (2204.61-MHz 686-class CPU)
	Origin = "AuthenticAMD"  Id = 0x40fb2  Stepping = 2
	Features=0x178bfbff<FPU,VME,DE,PSE,TSC,MSR,PAE,MCE,CX8,APIC,SEP,MTRR,PGE,MCA,CMOV,PAT,PSE36,CLFLUSH,MMX,FXSR,SSE,SSE2,HTT>
	Features2=0x2001<SSE3,CX16>
	AMD Features=0xea500800<SYSCALL,NX,MMX+,FFXSR,RDTSCP,LM,3DNow!+,3DNow!>
	AMD Features2=0x1f<LAHF,CMP,SVM,ExtAPIC,CR8>
	Cores per package: 2
	real memory  = 2129526784 (2030 MB)
	avail memory = 2072993792 (1976 MB)
	ACPI APIC Table: <Nvidia ASUSACPI>
	FreeBSD/SMP: Multiprocessor System Detected: 2 CPUs
	cpu0 (BSP): APIC ID:  0
	cpu1 (AP): APIC ID:  1
	ioapic0: Changing APIC ID to 2
	ioapic0 <Version 1.1> irqs 0-23 on motherboard
	kbd1 at kbdmux0
	acpi0: <Nvidia ASUSACPI> on motherboard
	acpi0: [ITHREAD]
	acpi0: Power Button (fixed)
	acpi0: reservation of 7eee0000, 20000 (3) failed
	acpi0: reservation of 0, a0000 (3) failed
	acpi0: reservation of 100000, 7ede0000 (3) failed
	Timecounter "ACPI-fast" frequency 3579545 Hz quality 1000
	acpi_timer0: <24-bit timer at 3.579545MHz> port 0x4008-0x400b on acpi0
	acpi_hpet0: <High Precision Event Timer> iomem 0xfefff000-0xfefff3ff on acpi0
	Timecounter "HPET" frequency 25000000 Hz quality 900
	acpi_button0: <Power Button> on acpi0
	pcib0: <ACPI Host-PCI bridge> port 0xcf8-0xcff on acpi0
	pci0: <ACPI PCI bus> on pcib0
	pci0: <memory, RAM> at device 0.0 (no driver attached)
	pci0: <memory, RAM> at device 0.1 (no driver attached)
	pci0: <memory, RAM> at device 0.2 (no driver attached)
	pci0: <memory, RAM> at device 0.3 (no driver attached)
	pci0: <memory, RAM> at device 0.4 (no driver attached)
	pci0: <memory, RAM> at device 0.5 (no driver attached)
	pci0: <memory, RAM> at device 0.6 (no driver attached)
	pci0: <memory, RAM> at device 0.7 (no driver attached)
	pcib1: <ACPI PCI-PCI bridge> at device 2.0 on pci0
	pci1: <ACPI PCI bus> on pcib1
	pcib2: <ACPI PCI-PCI bridge> at device 3.0 on pci0
	pci2: <ACPI PCI bus> on pcib2
	pcib3: <ACPI PCI-PCI bridge> at device 4.0 on pci0
	pci3: <ACPI PCI bus> on pcib3
	vgapci0: <VGA-compatible display> mem 0xfb000000-0xfbffffff,0xd0000000-0xdfffffff,0xfc000000-0xfcffffff irq 16 at device 5.0 on pci0
	pci0: <memory, RAM> at device 9.0 (no driver attached)
	isab0: <PCI-ISA bridge> at device 10.0 on pci0
	isa0: <ISA bus> on isab0
	pci0: <serial bus, SMBus> at device 10.1 (no driver attached)
	pci0: <memory, RAM> at device 10.2 (no driver attached)
	atapci0: <nVidia nForce MCP51 UDMA133 controller> port 0x1f0-0x1f7,0x3f6,0x170-0x177,0x376,0xf400-0xf40f at device 13.0 on pci0
	ata0: <ATA channel 0> on atapci0
	ata0: [ITHREAD]
	ata1: <ATA channel 1> on atapci0
	ata1: [ITHREAD]
	atapci1: <nVidia nForce MCP51 SATA300 controller> port 0x9f0-0x9f7,0xbf0-0xbf3,0x970-0x977,0xb70-0xb73,0xe000-0xe00f mem 0xfe02d000-0xfe02dfff irq 21 at device 14.0 on pci0
	atapci1: [ITHREAD]
	ata2: <ATA channel 0> on atapci1
	ata2: [ITHREAD]
	ata3: <ATA channel 1> on atapci1
	ata3: [ITHREAD]
	atapci2: <nVidia nForce MCP51 SATA300 controller> port 0x9e0-0x9e7,0xbe0-0xbe3,0x960-0x967,0xb60-0xb63,0xcc00-0xcc0f mem 0xfe02c000-0xfe02cfff irq 22 at device 15.0 on pci0
	atapci2: [ITHREAD]
	ata4: <ATA channel 0> on atapci2
	ata4: [ITHREAD]
	ata5: <ATA channel 1> on atapci2
	ata5: [ITHREAD]
	pcib4: <ACPI PCI-PCI bridge> at device 16.0 on pci0
	pci4: <ACPI PCI bus> on pcib4
	nfe0: <NVIDIA nForce 430 MCP13 Networking Adapter> port 0xc800-0xc807 mem 0xfe02b000-0xfe02bfff irq 23 at device 20.0 on pci0
	miibus0: <MII bus> on nfe0
	e1000phy0: <Marvell 88E1116 Gigabit PHY> PHY 1 on miibus0
	e1000phy0:  10baseT, 10baseT-FDX, 100baseTX, 100baseTX-FDX, 1000baseTX-FDX, auto
	nfe0: Ethernet address: 00:1b:fc:c3:02:fc
	nfe0: [FILTER]
	acpi_tz0: <Thermal Zone> on acpi0
	sio0: <16550A-compatible COM port> port 0x3f8-0x3ff irq 4 flags 0x10 on acpi0
	sio0: type 16550A
	sio0: [FILTER]
	sio1: <16550A-compatible COM port> port 0x2f8-0x2ff irq 3 on acpi0
	sio1: type 16550A
	sio1: [FILTER]
	cpu0: <ACPI CPU> on acpi0
	powernow0: <PowerNow! K8> on cpu0
	cpu1: <ACPI CPU> on acpi0
	powernow1: <PowerNow! K8> on cpu1
	pmtimer0 on isa0
	atkbdc0: <Keyboard controller (i8042)> at port 0x60,0x64 on isa0
	atkbd0: <AT Keyboard> irq 1 on atkbdc0
	kbd0 at atkbd0
	atkbd0: [GIANT-LOCKED]
	atkbd0: [ITHREAD]
	ppc0: <Parallel port> at port 0x378-0x37f irq 7 on isa0
	ppc0: Generic chipset (EPP/NIBBLE) in COMPATIBLE mode
	ppbus0: <Parallel port bus> on ppc0
	ppbus0: [ITHREAD]
	plip0: <PLIP network interface> on ppbus0
	plip0: WARNING: using obsoleted IFF_NEEDSGIANT flag
	lpt0: <Printer> on ppbus0
	lpt0: Interrupt-driven port
	ppi0: <Parallel I/O> on ppbus0
	ppc0: [GIANT-LOCKED]
	ppc0: [ITHREAD]
	sc0: <System console> at flags 0x100 on isa0
	sc0: VGA <16 virtual consoles, flags=0x300>
	vga0: <Generic ISA VGA> at port 0x3c0-0x3df iomem 0xa0000-0xbffff on isa0
	Timecounters tick every 1.000 msec
	ipfw2 (+ipv6) initialized, divert loadable, nat loadable, rule-based forwarding disabled, default to accept, logging disabled
	ad8: 476940MB <SAMSUNG HD501LJ CR100-12> at ata4-master SATA300
	ad10: 476940MB <SAMSUNG HD501LJ CR100-12> at ata5-master SATA300
	SMP: AP CPU #1 Launched!	
        ......
	......
	Fatal trap 12: page fault while in kernel mode
	cpuid = 1; apic id = 01
	fault virtual address   = 0xb
	fault code              = supervisor read, page not present
	instruction pointer     = 0x20:0xc08bed67
	stack pointer           = 0x28:0xc7869918
	frame pointer           = 0x28:0xc7869944
	code segment            = base 0x0, limit 0xfffff, type 0x1b
				= DPL 0, pres 1, def32 1, gran 1
	processor eflags        = interrupt enabled, resume, IOPL = 0
	current process         = 13 (swi1: net)
	trap number             = 12
	panic: page fault
	cpuid = 1
	Uptime: 23h58m22s
	Physical memory: 2018 MB
	Dumping 326 MB: 311 295 279 263 247 231 215 199 183 167 151 135 119 103 87 71 55 39 23 7(kgdb)

(kgdb) list *0xc08bed67
	0xc08bed67 is in rn_match (/usr/src/sys/net/radix.c:266).
	261             caddr_t v = v_arg;
	262             register struct radix_node *t = head->rnh_treetop, *x;
	263             register caddr_t cp = v, cp2;
	264             caddr_t cplim;
	265             struct radix_node *saved_t, *top = t;
	266             int off = t->rn_offset, vlen = LEN(cp), matched_off;
	267             register int test, b, rn_bit;
	268
	269             /*
	270              * Open code rn_search(v, top) to avoid overhead of extra
(kgdb) quit
Сейчас сделал

Код: Выделить всё

kern.polling.enable=0
наблюдаю за полетом.

Еще идеи ?

Re: pending sectors, server reboot, gmirror degraded

Добавлено: 2009-05-18 16:01:59
paix
новый бектрейс (с отключенным поллингом)

Код: Выделить всё

# backtrace1.txt
Reading symbols from /boot/kernel/acpi.ko...Reading symbols from /boot/kernel/acpi.ko.symbols...done.
done.
Loaded symbols for /boot/kernel/acpi.ko
Reading symbols from /boot/kernel/nullfs.ko...Reading symbols from /boot/kernel/nullfs.ko.symbols...done.
done.
Loaded symbols for /boot/kernel/nullfs.ko
Reading symbols from /boot/kernel/fdescfs.ko...Reading symbols from /boot/kernel/fdescfs.ko.symbols...done.
done.
Loaded symbols for /boot/kernel/fdescfs.ko
#0  doadump () at pcpu.h:196
        in pcpu.h
(kgdb) bt
#0  doadump () at pcpu.h:196
#1  0xc0814467 in boot (howto=260) at /usr/src/sys/kern/kern_shutdown.c:418
#2  0xc0814739 in panic (fmt=) at /usr/src/sys/kern/kern_shutdown.c:574
#3  0xc0b2af4c in trap_fatal (frame=0xc7931908, eva=12) at /usr/src/sys/i386/i386/trap.c:939
#4  0xc0b2b1d0 in trap_pfault (frame=0xc7931908, usermode=0, eva=12) at /usr/src/sys/i386/i386/trap.c:852
#5  0xc0b2bb7c in trap (frame=0xc7931908) at /usr/src/sys/i386/i386/trap.c:530
#6  0xc0b1028b in calltrap () at /usr/src/sys/i386/i386/exception.s:159
#7  0xc08bed67 in rn_match (v_arg=0xc0ccd06c, head=0xc81f7d00) at /usr/src/sys/net/radix.c:262
#8  0xc04ba003 in pfr_match_addr (kt=0xc837a4d8, a=0xce81281c, af=2 '\002') at /usr/src/sys/contrib/pf/net/pf_table.c:2104
#9  0xc04a3feb in pf_test_udp (rm=0xc7931b18, sm=0xc7931b14, direction=1, kif=0xc7ebfe00, m=0xceb01600, off=20, h=0xce812810, pd=0xc7931ab0, am=0xc7931b1c, rsm=0xc7931b10, ifq=0x0, inp=0x0)
    at /usr/src/sys/contrib/pf/net/pf.c:3729
#10 0xc04a85ff in pf_test (dir=1, ifp=0xc7e78800, m0=0xc7931b74, eh=0x0, inp=0x0) at /usr/src/sys/contrib/pf/net/pf.c:6941
#11 0xc04ad996 in pf_check_in (arg=0x0, m=0xc7931b74, ifp=0xc7e78800, dir=1, inp=0x0) at /usr/src/sys/contrib/pf/net/pf_ioctl.c:3647
#12 0xc08be3a8 in pfil_run_hooks (ph=0xc0d0da40, mp=0xc7931bd0, ifp=0xc7e78800, dir=1, inp=0x0) at /usr/src/sys/net/pfil.c:78
#13 0xc09036aa in ip_input (m=0xceb01600) at /usr/src/sys/netinet/ip_input.c:416
#14 0xc08bcb25 in netisr_dispatch (num=2, m=0xceb01600) at /usr/src/sys/net/netisr.c:185
#15 0xc08b2ac1 in ether_demux (ifp=0xc7e78800, m=0xceb01600) at /usr/src/sys/net/if_ethersubr.c:834
#16 0xc08b2eb3 in ether_input (ifp=0xc7e78800, m=0xceb01600) at /usr/src/sys/net/if_ethersubr.c:692
#17 0xc0afda0b in nfe_rxeof (sc=0xc7e90000, count=191) at /usr/src/sys/dev/nfe/if_nfe.c:2116
#18 0xc0affb1f in nfe_int_task (arg=0xc7e90000, pending=1) at /usr/src/sys/dev/nfe/if_nfe.c:1831
#19 0xc08496f5 in taskqueue_run (queue=0xc7e6d780) at /usr/src/sys/kern/subr_taskqueue.c:282
#20 0xc0849908 in taskqueue_thread_loop (arg=0xc7e90130) at /usr/src/sys/kern/subr_taskqueue.c:401
#21 0xc07ede59 in fork_exit (callout=0xc0849840 <taskqueue_thread_loop>, arg=0xc7e90130, frame=0xc7931d38) at /usr/src/sys/kern/kern_fork.c:810
#22 0xc0b10300 in fork_trampoline () at /usr/src/sys/i386/i386/exception.s:264
(kgdb) bt full
#0  doadump () at pcpu.h:196
No locals.
#1  0xc0814467 in boot (howto=260) at /usr/src/sys/kern/kern_shutdown.c:418
        _giantcnt = (kgdb) quit


(kgdb) printf "%s", (char *)msgbufp->msg_ptr
.....

Fatal trap 12: page fault while in kernel mode
cpuid = 1; apic id = 01
fault virtual address   = 0xc
fault code              = supervisor read, page not present
instruction pointer     = 0x20:0xc08bed67
stack pointer           = 0x28:0xc7931948
frame pointer           = 0x28:0xc7931974
code segment            = base 0x0, limit 0xfffff, type 0x1b
                        = DPL 0, pres 1, def32 1, gran 1
processor eflags        = interrupt enabled, resume, IOPL = 0
current process         = 27 (nfe0 taskq)
trap number             = 12
panic: page fault
cpuid = 1
Uptime: 1d22h0m35s
Physical memory: 2018 MB
Dumping 336 MB: 321 305 289 273 257 241 225 209 193 177 161 145 129 113 97 81 65 49 33 17 1ux0

сетевая нагрузка низка, в среднем порядка 4мбит\с out и около 200 established connections, в пиках 16-20 мбит\с
в pf - ничего партийного, парочка таблиц, парочка редиректов...

я понимаю, что сетевуха, конечно, не фонтан, но вполне себе рабочая. Есть ряд серверов на аналогичном железе. Да и на этом же тазике, до этого работал винт с OS fbsd 7.0, и на которую временами приходилась значительно большая нагрузка (~80мбит\с).....

PS. тема уже перестала иметь к железу прямое отношение. Может быть модераторы перенесут в соотв. раздел?

Re: pending sectors, server reboot, gmirror degraded

Добавлено: 2009-12-04 16:43:54
zingel

Код: Выделить всё

(nfe0 taskq)

Код: Выделить всё

pfctl -sa

Re: pending sectors, server reboot, gmirror degraded

Добавлено: 2009-12-04 17:10:11
paix
Зингель, ну ты однако старье откапал )

спасибо, помогли ребята из uafug
http://groups.google.com/group/uafug/br ... f69245723a#
см. сообщения от Mikolaj Golub.