Страница 1 из 1
Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-06 14:13:43
sasha181
Код: Выделить всё
root@server4 [/var/log]# uname -a
FreeBSD server4 8.2-STABLE FreeBSD 8.2-STABLE #0: Tue Apr 5 03:53:12 MSD 2011 root@server4:/usr/obj/usr/src/sys/GENERIC amd64
На сервере 2 Gb памяти.
ФС ZFS. Расшарено по NFS несколько разделов. Нагрузка по NFS не большая.
Сервер выполняет роль файлового хранилища. Кроме того на нём крутится mysql, zabbix, nginx, php-fpm, и баннерная система openx.
Вчера внезапно перестал отвечать по NFS и ssh , но ip пинговался . В /var/log/messages ни строчки на время падения.
Первое предположение, что слишком много навесил на сервер. Но где ещё можно посмотреть хоть какую-нибудь информацию на момент падения?
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-06 14:33:19
ADRE
телепатирую что надо сменить термопасту, поставить кондиционер и почистить от пыли
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-07 10:52:01
sasha181
Похоже Вы правы.
Код: Выделить всё
root@server4 [/usr/local/etc/rc.d]# sysctl -a | grep temperature
dev.cpu.0.temperature: 47.0C
dev.cpu.1.temperature: 47.0C
dev.cpu.2.temperature: 48.0C
dev.cpu.3.temperature: 48.0C
Это при нагрузке на процессор 1-2 %
CPU: Intel(R) Xeon(R) CPU E5405 @ 2.00GHz (2002.99-MHz K8-class CPU)
Это нормально ? Мне кажется для простоя многова-то или ошибаюсь?
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-07 11:27:06
GhOsT_MZ
А под нагрузкой какая температура?
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-07 13:41:30
manefesto
критическая температура около 100 С
У меня нетбук в простое 55С дает
Так то что температура нормальня
Вот на рабочем десктопе
dev.cpu.0.temperature: 46.0C
dev.cpu.1.temperature: 45.0C
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-07 14:17:53
sasha181
через 10 мин работы под нагрузкой
Код: Выделить всё
root@server4 [/root]# sysctl -a | grep temperature
dev.cpu.0.temperature: 55.0C
dev.cpu.1.temperature: 55.0C
dev.cpu.2.temperature: 58.0C
dev.cpu.3.temperature: 57.0C
похоже причина в другом. Тем более что на этом сервере не может быть долго 100% нагрузки. Точнее по графикам zabbix нагрузка на проц не поднималась никогда выше 2%
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-08 17:53:42
ADRE
температура в помещении?
какой охладитель?
как плотно соприкасаются радиатор и проц?
как продувается корпус?
температура на хардах?
на чипсетах?
сколько вообще вентиляторов?
какой объем воздуха поступает или выходит корпуса?
--
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-09 8:22:39
sasha181
в помещении 18-20 градусов
сервер интеловский 1U . Сборка kraftway . Ему 2,5 года. Ранова-то мне кажется для высыхания термопасты и .т.п. проблем с железом.
по винтам вот вывод smart
Код: Выделить всё
root@server4 [/root]# smartctl -a /dev/ad4
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-STABLE amd64] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Device Model: ST32000644NS
Serial Number: 9WM1S0KK
Firmware Version: SN11
User Capacity: 2,000,398,934,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Thu Jun 9 09:06:37 2011 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 609) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x10bd) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 076 063 044 Pre-fail Always - 47313988
3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 6
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 1
7 Seek_Error_Rate 0x000f 081 060 030 Pre-fail Always - 149691003
9 Power_On_Hours 0x0032 096 096 000 Old_age Always - 3913
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 6
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 071 059 045 Old_age Always - 29 (Min/Max 27/29)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 5
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 6
194 Temperature_Celsius 0x0022 029 041 000 Old_age Always - 29 (0 19 0 0)
195 Hardware_ECC_Recovered 0x001a 052 020 000 Old_age Always - 47313988
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
root@server4 [/root]# smartctl -a /dev/ad6
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-STABLE amd64] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Device Model: ST32000644NS
Serial Number: 9WM1WNCL
Firmware Version: SN11
User Capacity: 2,000,398,934,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Thu Jun 9 09:07:39 2011 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 609) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x10bd) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 078 063 044 Pre-fail Always - 82457057
3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 6
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 081 060 030 Pre-fail Always - 148251288
9 Power_On_Hours 0x0032 096 096 000 Old_age Always - 3913
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 6
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 073 059 045 Old_age Always - 27 (Min/Max 25/27)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 5
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 6
194 Temperature_Celsius 0x0022 027 041 000 Old_age Always - 27 (0 19 0 0)
195 Hardware_ECC_Recovered 0x001a 050 018 000 Old_age Always - 82457057
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
root@server4 [/root]# smartctl -a /dev/ad8
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-STABLE amd64] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Device Model: ST32000644NS
Serial Number: 9WM1WN9E
Firmware Version: SN11
User Capacity: 2,000,398,934,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Thu Jun 9 09:20:16 2011 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 609) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x10bd) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 072 063 044 Pre-fail Always - 19687611
3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 6
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 081 060 030 Pre-fail Always - 150960658
9 Power_On_Hours 0x0032 096 096 000 Old_age Always - 3913
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 6
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 073 048 045 Old_age Always - 27 (Min/Max 26/27)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 2
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 5
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 6
194 Temperature_Celsius 0x0022 027 052 000 Old_age Always - 27 (0 18 0 0)
195 Hardware_ECC_Recovered 0x001a 049 018 000 Old_age Always - 19687611
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Температура в норме а вот показатели 1 и 195 не слишком ли большие для винтов, которые всего пол года работают?
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-09 8:40:42
sasha181
Кстати, может у кого-то есть заготовки готовые для zabbix, чтобы мониторить критические параметры smart и строить граффики динамики их изменения. Если нет, посоветуйте пожалуйста, что имеет смысл мониторить таким образюм и на что накинуть триггеры. Как сделаю, поделюсь.
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-09 12:45:14
GhOsT_MZ
Raw_Read_Error_Rate
Reallocated_Sector_Ct
Seek_Error_Rate
Hardware_ECC_Recovered
Current_Pending_Sector
UDMA_CRC_Error_Count
+ температура.
Это как минимум. Только стоит учесть, что если винт сигейт, то Raw_Read_Error_Rate и Hardware_ECC_Recovered можно не учитывать, или мониторить, чтобы эти значения были одинаковые.
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-09 14:03:50
sasha181
А из-за чего такая особенность с сигейтами?
Re: Странно завис сервер. Помогите пожалуйста найти причину.
Добавлено: 2011-06-09 18:09:33
GhOsT_MZ
Особенности использования SMART этими дисками, вот и все. SMART - это технология, для которой есть свой стандарт, но производителям никто не мешает использовать свои аттрибуты или стандартизированные атрибуты со своим назначением.
Кстати, помнится на форуме ixbt активно обсуждалась тема сигейтов и этих двух аттрибутов, так что, если интересно, можете почитать.