В общем, проблема в следующем. Есть боевой сервер, месяца полтора отработал без нареканий. Через 4 дня после перезагрузки без всяких видимых причин (графики Zabbix) резко возросло количество процессов (httpd), многие httpd, все воркеры nginx, некоторые другие процессы висят в D state. На деле все жутко тормозит, сайты работают через одно место, в основном 499 ошибка nginx. Немного инфо:
Код: Выделить всё
# mount
/dev/mfid0p2 on / (ufs, local, journaled soft-updates)
devfs on /dev (devfs, local, multilabel)
/dev/mfid0p4 on /var (ufs, local, journaled soft-updates)
/dev/mfid0p5 on /tmp (ufs, local, journaled soft-updates)
/dev/mfid0p6 on /usr (ufs, local, journaled soft-updates)
/dev/mfid0p7 on /home (ufs, local, with quotas, journaled soft-updates)Код: Выделить всё
# uname -rsm
FreeBSD 9.2-RELEASE-p5 amd64Код: Выделить всё
# df -i
Filesystem 1K-blocks Used Avail Capacity iused ifree %iused Mounted on
/dev/mfid0p2 16233660 1128356 13806612 8% 5084 2161826 0% /
devfs 1 1 0 100% 0 0 100% /dev
/dev/mfid0p4 260001720 28296360 210905224 12% 134154 33493108 0% /var
/dev/mfid0p5 16233660 7295780 7639188 49% 406 2166504 0% /tmp
/dev/mfid0p6 64995324 8283908 51511792 14% 359291 8067587 4% /usr
/dev/mfid0p7 1525505972 555076272 848389224 40% 3989720 193199270 2% /homeКод: Выделить всё
softdep_waitidle: Failed to flush worklist for 0xfffffe0009e019a8
unmount of /home failed (BUSY)Код: Выделить всё
** SU+J Recovering /dev/mfid0p7
** Reading 33554432 byte journal from inode 4.
** Building recovery table.
** Resolving unreferenced inode list.
** Processing journal entries.
/dev/mfid0p7: ino 6181683 nlink manipulation error, new link 65530, old link 0
/dev/mfid0p7: UNEXPECTED SU+J INCONSISTENCY
/dev/mfid0p7: INTERNAL ERROR: GOT TO reply()
/dev/mfid0p7: UNEXPECTED SOFT UPDATE INCONSISTENCY; RUN fsck MANUALLY.
pid 118 (fsck_ufs), uid 0: exited on signal 11
ufs: /dev/mfid0p7 (/home): EXITED WITH SIGNAL 11
THE FOLLOWING FILE SYSTEM HAD AN UNEXPECTED INCONSISTENCY:
ufs: /dev/mfid0p7 (/home)
Automatic file system check failed; help!
ERROR: ABORTING BOOT (sending SIGTERM to parent)!
....Уже нет идей, кроме как отключить SU+J, а поможет ли? В чем может быть дело? Кто что посоветует? Аптайм критичен, сильно экспериментировать нежелательно.
P.S. Был сервер с FreeBSD 9.1, с RAID1 (сейчас другой контроллер и RAID10) и на нем была такая же проблема, бывало через три месяца, а бывало и через неделю повторялось. Тогда так и не нашлась причина, сервер с полгода назад был отдан под другие задачи.
