Страница 1 из 1

настроика heartbeat

Добавлено: 2013-04-24 15:43:20
kirill666
Доброго всем времени суток.
При настроике heartbeat столкнулся с проблемой: вторая нода отказоустоичивого кластера считает первую упавшей и звбирает на себя ip адрес.
ha.cf такой:

Код: Выделить всё

logfacility	local0
keepalive 5
deadtime 60
warntime 10
udpport	694
bcast	eth0 eth1	
auto_failback on
node	cl1.cl
node	cl2.cl
ping 172.16.0.1
authkeys

Код: Выделить всё

auth 2
#1 crc
2 sha1 HI!
#3 md5 Hello!

Код: Выделить всё

cl1.cl IPaddr::172.16.0.240/24/eth0
Если пинговать, то по именам пингуются, фаервол и selinux погашены.
[root@cl1 /]# uname -n
cl1.cl
[root@cl2 ~]# uname -n
cl2.cl


Вот лог с первой ноды (вообще они одинаковые)

Код: Выделить всё

Apr 24 13:28:13 cl1 heartbeat: [3044]: info: Pacemaker support: false
Apr 24 13:28:13 cl1 heartbeat: [3044]: WARN: Logging daemon is disabled --enabling logging daemon is recommended
Apr 24 13:28:13 cl1 heartbeat: [3044]: info: **************************
Apr 24 13:28:13 cl1 heartbeat: [3044]: info: Configuration validated. Starting heartbeat 3.0.4
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: heartbeat: version 3.0.4
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: Heartbeat generation: 1366789115
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: glib: UDP Broadcast heartbeat started on port 694 (694) interface eth0
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: glib: UDP Broadcast heartbeat closed on port 694 interface eth0 - Status: 1
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: glib: UDP Broadcast heartbeat started on port 694 (694) interface eth1
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: glib: UDP Broadcast heartbeat closed on port 694 interface eth1 - Status: 1
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: glib: ping heartbeat started.
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: G_main_add_TriggerHandler: Added signal manual handler
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: G_main_add_TriggerHandler: Added signal manual handler
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: G_main_add_SignalHandler: Added signal handler for signal 17
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: Local status now set to: 'up'
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: Link 172.16.0.1:172.16.0.1 up.
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: Status update for node 172.16.0.1: status ping
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: Link cl1.cl:eth0 up.
Apr 24 13:28:13 cl1 heartbeat: [3045]: info: Link cl1.cl:eth1 up.
Apr 24 13:29:14 cl1 heartbeat: [3045]: WARN: node cl2.cl: is dead
Apr 24 13:29:14 cl1 heartbeat: [3045]: info: Comm_now_up(): updating status to active
Apr 24 13:29:14 cl1 heartbeat: [3045]: info: Local status now set to: 'active'
Apr 24 13:29:14 cl1 heartbeat: [3045]: WARN: No STONITH device configured.
Apr 24 13:29:14 cl1 heartbeat: [3045]: WARN: Shared disks are not protected.
Apr 24 13:29:14 cl1 heartbeat: [3045]: info: Resources being acquired from cl2.cl.
Apr 24 13:29:14 cl1 harc(default)[3057]: info: Running /etc/ha.d//rc.d/status status
Apr 24 13:29:14 cl1 mach_down(default)[3091]: info: /usr/share/heartbeat/mach_down: nice_failback: foreign resources acquired
Apr 24 13:29:14 cl1 mach_down(default)[3091]: info: mach_down takeover complete for node cl2.cl.
Apr 24 13:29:14 cl1 heartbeat: [3045]: info: mach_down takeover complete.
Apr 24 13:29:14 cl1 heartbeat: [3045]: info: Initial resource acquisition complete (mach_down)
Apr 24 13:29:14 cl1 /usr/lib/ocf/resource.d//heartbeat/IPaddr(IPaddr_172.16.0.240)[3131]: INFO:  Resource is stopped
Apr 24 13:29:14 cl1 heartbeat: [3058]: info: Local Resource acquisition completed.
Apr 24 13:29:14 cl1 harc(default)[3189]: info: Running /etc/ha.d//rc.d/ip-request-resp ip-request-resp
Apr 24 13:29:14 cl1 ip-request-resp(default)[3189]: received ip-request-resp IPaddr::172.16.0.240/24/eth0 OK yes
Apr 24 13:29:14 cl1 ResourceManager(default)[3212]: info: Acquiring resource group: cl1.cl IPaddr::172.16.0.240/24/eth0
Apr 24 13:29:14 cl1 /usr/lib/ocf/resource.d//heartbeat/IPaddr(IPaddr_172.16.0.240)[3240]: INFO:  Resource is stopped
Apr 24 13:29:14 cl1 ResourceManager(default)[3212]: info: Running /etc/ha.d/resource.d/IPaddr 172.16.0.240/24/eth0 start
Apr 24 13:29:14 cl1 IPaddr(IPaddr_172.16.0.240)[3325]: INFO: Using calculated netmask for 172.16.0.240: 255.255.255.0
Apr 24 13:29:14 cl1 IPaddr(IPaddr_172.16.0.240)[3325]: INFO: eval ifconfig eth0:0 172.16.0.240 netmask 255.255.255.0 broadcast 172.16.0.255
Apr 24 13:29:14 cl1 /usr/lib/ocf/resource.d//heartbeat/IPaddr(IPaddr_172.16.0.240)[3299]: INFO:  Success
Система Centos 6.4.
Почему такое может просиходить ?

Re: настроика heartbeat

Добавлено: 2013-04-25 10:25:32
Graf
попробуй добавить

Код: Выделить всё

initdead 120
И, вдруг пригодиться, то как я это делал. Кстати pacemaker гибче.
http://wiki.slackware.su/wiki:articles:ha

Re: настроика heartbeat

Добавлено: 2013-04-25 11:08:18
kirill666

Код: Выделить всё

initdead 120
не спасло, причем заметил сосбенность, на главной ноде тоже не сркзу поднимается а только полсе того как первая понимает что вторая мертвая .

Код: Выделить всё

Apr 25 11:59:44 cl1.cl heartbeat: [5391]: info: Link cl1.cl:eth0 up.
Apr 25 11:59:44 cl1.cl heartbeat: [5391]: info: Link cl1.cl:eth1 up.
Apr 25 12:01:45 cl1.cl heartbeat: [5391]: WARN: node cl2.cl: is dead
Apr 25 12:01:45 cl1.cl heartbeat: [5391]: info: Comm_now_up(): updating status to active
Apr 25 12:01:45 cl1.cl heartbeat: [5391]: info: Local status now set to: 'active'
Apr 25 12:01:45 cl1.cl heartbeat: [5391]: WARN: No STONITH device configured.
Apr 25 12:01:45 cl1.cl heartbeat: [5391]: WARN: Shared disks are not protected.
Apr 25 12:01:45 cl1.cl heartbeat: [5391]: info: Resources being acquired from cl2.cl.
harc(default)[5428]:	2013/04/25_12:01:45 info: Running /etc/ha.d//rc.d/status status
mach_down(default)[5464]:	2013/04/25_12:01:45 info: /usr/share/heartbeat/mach_down: nice_failback: foreign resources acquired
mach_down(default)[5464]:	2013/04/25_12:01:45 info: mach_down takeover complete for node cl2.cl.
Apr 25 12:01:45 cl1.cl heartbeat: [5391]: info: mach_down takeover complete.
Apr 25 12:01:45 cl1.cl heartbeat: [5391]: info: Initial resource acquisition complete (mach_down)
/usr/lib/ocf/resource.d//heartbeat/IPaddr(IPaddr_172.16.0.240)[5501]:	2013/04/25_12:01:45 INFO:  Resource is stopped
Apr 25 12:01:45 cl1.cl heartbeat: [5429]: info: Local Resource acquisition completed.

Re: настроика heartbeat

Добавлено: 2013-04-25 11:31:03
Graf
а можно вопрос?
что это?

Код: Выделить всё

ping 172.16.0.1

Re: настроика heartbeat

Добавлено: 2013-04-25 12:04:33
kirill666

Код: Выделить всё

ping 172.16.0.1
пинговать внешний узел, для проверки работосопосбности внешней сети.
судя по логам каждая нода считает себя вторичной.
я так понимаю определяется это только в /etc/ha.d/haresources

Re: настроика heartbeat

Добавлено: 2013-04-25 12:26:08
Graf
"внешний узел" - это и есть вторая нода? или нет?
Чет я запутался в формулировках. :cz2:
Давай ориентироваться и использовать названия нод и их IP-адреса.
как-то так:
192.168.10.188 node1
192.168.10.189 node2
192.168.10.190 общий для юзверей.

Re: настроика heartbeat

Добавлено: 2013-04-25 14:39:59
kirill666
значит моя терминалогия )))
cl1.cl eth0:172.16.0.210 eth1:10.10.10.1
cl2.cl eth0:172.16.0.211 eth1:10.10.10.2
интерфейсы eth1 используются для сердцебиения, и обмена drbd ....
виртуальный интерфейс кластера(переходящий) - 172.16.0.240
172.16.0.1 - левый хост в сети которого пингуют ноды для проверки савязи с внешнем миром

Re: настроика heartbeat

Добавлено: 2013-04-25 16:52:44
Graf
kirill666 писал(а):

Код: Выделить всё

ping 172.16.0.1
пинговать внешний узел, для проверки работосопосбности внешней сети.
хм... я думал этот параметр совсем для других нужд.
kirill666 писал(а): судя по логам каждая нода считает себя вторичной.

Код: Выделить всё

# cat /proc/drbd
на каждой ноде, тоже так считает?

Re: настроика heartbeat

Добавлено: 2013-04-26 12:17:36
kirill666
по поводу пинга утверждать не берусь(читал доку в переводе. а оригинале как то мутно написано про пинг), убрал его, на полет это не повлияло,
сейчас ndbd отключен от конфига и погашен, вторая попытка на виртуалках без drbd тоже не увенчалась успехом.

Re: настроика heartbeat

Добавлено: 2014-12-02 18:49:14
Игорь
Я бы поменял еще конфигурацию haresources на что - то вроде этого

node1 IPaddr::192.168.1.2/24/eth0 drbddisk::srv Filesystem::/dev/drbd0::/srv::ext4

Так heartbeat сервис будет знать что нужно смонтировать DRBD ресурс на secondary узле.