Странно завис сервер. Помогите пожалуйста найти причину.

Простые/общие вопросы по UNIX системам. Спросите здесь, если вы новичок

Модераторы: vadim64, terminus

Правила форума
Убедительная просьба юзать теги [cоde] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
sasha181
сержант
Сообщения: 169
Зарегистрирован: 2008-02-04 17:02:30
Откуда: Краснодар

Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение sasha181 » 2011-06-06 14:13:43

Код: Выделить всё

root@server4 [/var/log]# uname -a
FreeBSD server4 8.2-STABLE FreeBSD 8.2-STABLE #0: Tue Apr  5 03:53:12 MSD 2011     root@server4:/usr/obj/usr/src/sys/GENERIC  amd64
На сервере 2 Gb памяти.
ФС ZFS. Расшарено по NFS несколько разделов. Нагрузка по NFS не большая.
Сервер выполняет роль файлового хранилища. Кроме того на нём крутится mysql, zabbix, nginx, php-fpm, и баннерная система openx.
Вчера внезапно перестал отвечать по NFS и ssh , но ip пинговался . В /var/log/messages ни строчки на время падения.
Первое предположение, что слишком много навесил на сервер. Но где ещё можно посмотреть хоть какую-нибудь информацию на момент падения?
Последний раз редактировалось f_andrey 2011-06-06 14:16:21, всего редактировалось 1 раз.
Причина: Автору, выбирайте пожалуйста раздел соответствуюший тематике вашего сообщения. приводите полную диагностику, больше логов больше вероятности ответа, а не флуда

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

Аватара пользователя
ADRE
майор
Сообщения: 2645
Зарегистрирован: 2007-07-26 8:53:49
Контактная информация:

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение ADRE » 2011-06-06 14:33:19

телепатирую что надо сменить термопасту, поставить кондиционер и почистить от пыли
//del

sasha181
сержант
Сообщения: 169
Зарегистрирован: 2008-02-04 17:02:30
Откуда: Краснодар

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение sasha181 » 2011-06-07 10:52:01

Похоже Вы правы.

Код: Выделить всё

root@server4 [/usr/local/etc/rc.d]# sysctl -a | grep temperature
dev.cpu.0.temperature: 47.0C
dev.cpu.1.temperature: 47.0C
dev.cpu.2.temperature: 48.0C
dev.cpu.3.temperature: 48.0C
Это при нагрузке на процессор 1-2 %
CPU: Intel(R) Xeon(R) CPU E5405 @ 2.00GHz (2002.99-MHz K8-class CPU)

Это нормально ? Мне кажется для простоя многова-то или ошибаюсь?

GhOsT_MZ
лейтенант
Сообщения: 662
Зарегистрирован: 2011-04-25 11:40:35
Контактная информация:

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение GhOsT_MZ » 2011-06-07 11:27:06

А под нагрузкой какая температура?

Аватара пользователя
manefesto
Группенфюррер
Сообщения: 6934
Зарегистрирован: 2007-07-20 8:27:30
Откуда: Пермь
Контактная информация:

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение manefesto » 2011-06-07 13:41:30

критическая температура около 100 С
У меня нетбук в простое 55С дает
Так то что температура нормальня
Вот на рабочем десктопе
dev.cpu.0.temperature: 46.0C
dev.cpu.1.temperature: 45.0C
я такой яростный шо аж пиздеЦ
Изображение

sasha181
сержант
Сообщения: 169
Зарегистрирован: 2008-02-04 17:02:30
Откуда: Краснодар

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение sasha181 » 2011-06-07 14:17:53

через 10 мин работы под нагрузкой

Код: Выделить всё

root@server4 [/root]# sysctl -a | grep temperature
dev.cpu.0.temperature: 55.0C
dev.cpu.1.temperature: 55.0C
dev.cpu.2.temperature: 58.0C
dev.cpu.3.temperature: 57.0C
похоже причина в другом. Тем более что на этом сервере не может быть долго 100% нагрузки. Точнее по графикам zabbix нагрузка на проц не поднималась никогда выше 2%

Аватара пользователя
ADRE
майор
Сообщения: 2645
Зарегистрирован: 2007-07-26 8:53:49
Контактная информация:

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение ADRE » 2011-06-08 17:53:42

температура в помещении?
какой охладитель?
как плотно соприкасаются радиатор и проц?
как продувается корпус?
температура на хардах?
на чипсетах?
сколько вообще вентиляторов?
какой объем воздуха поступает или выходит корпуса?
--
//del

sasha181
сержант
Сообщения: 169
Зарегистрирован: 2008-02-04 17:02:30
Откуда: Краснодар

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение sasha181 » 2011-06-09 8:22:39

в помещении 18-20 градусов
сервер интеловский 1U . Сборка kraftway . Ему 2,5 года. Ранова-то мне кажется для высыхания термопасты и .т.п. проблем с железом.
по винтам вот вывод smart

Код: Выделить всё

root@server4 [/root]# smartctl -a /dev/ad4
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-STABLE amd64] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST32000644NS
Serial Number:    9WM1S0KK
Firmware Version: SN11
User Capacity:    2,000,398,934,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jun  9 09:06:37 2011 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 609) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x10bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   076   063   044    Pre-fail  Always       -       47313988
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       6
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x000f   081   060   030    Pre-fail  Always       -       149691003
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       3913
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       6
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   059   045    Old_age   Always       -       29 (Min/Max 27/29)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       6
194 Temperature_Celsius     0x0022   029   041   000    Old_age   Always       -       29 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   052   020   000    Old_age   Always       -       47313988
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@server4 [/root]# smartctl -a /dev/ad6
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-STABLE amd64] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST32000644NS
Serial Number:    9WM1WNCL
Firmware Version: SN11
User Capacity:    2,000,398,934,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jun  9 09:07:39 2011 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 609) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x10bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   078   063   044    Pre-fail  Always       -       82457057
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       6
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   081   060   030    Pre-fail  Always       -       148251288
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       3913
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       6
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   073   059   045    Old_age   Always       -       27 (Min/Max 25/27)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       6
194 Temperature_Celsius     0x0022   027   041   000    Old_age   Always       -       27 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   050   018   000    Old_age   Always       -       82457057
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@server4 [/root]# smartctl -a /dev/ad8
smartctl 5.40 2010-10-16 r3189 [FreeBSD 8.2-STABLE amd64] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST32000644NS
Serial Number:    9WM1WN9E
Firmware Version: SN11
User Capacity:    2,000,398,934,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jun  9 09:20:16 2011 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 609) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x10bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   072   063   044    Pre-fail  Always       -       19687611
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       6
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   081   060   030    Pre-fail  Always       -       150960658
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       3913
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       6
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   073   048   045    Old_age   Always       -       27 (Min/Max 26/27)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       2
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       6
194 Temperature_Celsius     0x0022   027   052   000    Old_age   Always       -       27 (0 18 0 0)
195 Hardware_ECC_Recovered  0x001a   049   018   000    Old_age   Always       -       19687611
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Температура в норме а вот показатели 1 и 195 не слишком ли большие для винтов, которые всего пол года работают?

sasha181
сержант
Сообщения: 169
Зарегистрирован: 2008-02-04 17:02:30
Откуда: Краснодар

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение sasha181 » 2011-06-09 8:40:42

Кстати, может у кого-то есть заготовки готовые для zabbix, чтобы мониторить критические параметры smart и строить граффики динамики их изменения. Если нет, посоветуйте пожалуйста, что имеет смысл мониторить таким образюм и на что накинуть триггеры. Как сделаю, поделюсь.

GhOsT_MZ
лейтенант
Сообщения: 662
Зарегистрирован: 2011-04-25 11:40:35
Контактная информация:

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение GhOsT_MZ » 2011-06-09 12:45:14

Raw_Read_Error_Rate
Reallocated_Sector_Ct
Seek_Error_Rate
Hardware_ECC_Recovered
Current_Pending_Sector
UDMA_CRC_Error_Count
+ температура.

Это как минимум. Только стоит учесть, что если винт сигейт, то Raw_Read_Error_Rate и Hardware_ECC_Recovered можно не учитывать, или мониторить, чтобы эти значения были одинаковые.

sasha181
сержант
Сообщения: 169
Зарегистрирован: 2008-02-04 17:02:30
Откуда: Краснодар

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение sasha181 » 2011-06-09 14:03:50

А из-за чего такая особенность с сигейтами?

GhOsT_MZ
лейтенант
Сообщения: 662
Зарегистрирован: 2011-04-25 11:40:35
Контактная информация:

Re: Странно завис сервер. Помогите пожалуйста найти причину.

Непрочитанное сообщение GhOsT_MZ » 2011-06-09 18:09:33

Особенности использования SMART этими дисками, вот и все. SMART - это технология, для которой есть свой стандарт, но производителям никто не мешает использовать свои аттрибуты или стандартизированные атрибуты со своим назначением.
Кстати, помнится на форуме ixbt активно обсуждалась тема сигейтов и этих двух аттрибутов, так что, если интересно, можете почитать.