MySQL之高可用集群部署及故障切换实现(2)-木庄网络博客

当前第2页返回上一页

mkdir /etc/masterha
cp /opt/mha4mysql-manager-0.57/samples/conf/app1.cnf /etc/masterha
echo '' > /etc/masterha/app1.cnf
vim /etc/masterha/app1.cnf
[server default]
manager_log=/var/log/masterha/app1/manager.log
manager_workdir=/var/log/masterha/app1
master_binlog_dir=/usr/local/mysql/data
master_ip_failover_script=/usr/local/bin/master_ip_failover
master_ip_online_change_script=/usr/local/bin/master_ip_online_change
user=mha
password=manager
ping_interval=1
remote_workdir=/tmp
repl_user=myslave
repl_password=123
secondary_check_script=/usr/local/bin/masterha_secondary_check -s 192.168.221.100 -s 192.168.221.110
shutdown_script=""
ssh_user=root

[server1]
hostname=192.168.221.20
port=3306

[server2]
candidate_master=1
check_repl_delay=0
hostname=192.168.221.100
port=3306

[server3]
hostname=192.168.221.110
port=3306

#--------------------------配置文件解释--------------------------------------------------------------------------
[server default]
manager_log=/var/log/masterha/app1/manager.log　　　 #manager日志
manager_workdir=/var/log/masterha/app1.log　　　　	#manager工作目录
master_binlog_dir=/usr/local/mysql/data/　　　　　　　#master保存binlog的位置，这里的路径要与master里配置的binlog的路径一致，以便MHA能找到
master_ip_failover_script=/usr/local/bin/master_ip_failover　          　#设置自动failover时候的切换脚本，也就是上面的那个脚本
master_ip_online_change_script=/usr/local/bin/master_ip_online_change　　#设置手动切换时候的切换脚本
user=mha					#设置监控用户root
password=manager			#设置mysql中root用户的密码，这个密码是前文中创建监控用户的那个密码
ping_interval=1				#设置监控主库，发送ping包的时间间隔1秒，默认是3秒，尝试三次没有回应的时候自动进行failover
remote_workdir=/tmp			#设置远端mysql在发生切换时binlog的保存位置
repl_user=myslave			#设置复制用户的用户
repl_password=123		#设置复制用户的密码
report_script=/usr/local/send_report　　#设置发生切换后发送的报警的脚本
secondary_check_script=/usr/local/bin/masterha_secondary_check -s 192.168.221.100 -s 192.168.221.110	#指定检查的从服务器IP地址
shutdown_script=""			#设置故障发生后关闭故障主机脚本（该脚本的主要作用是关闭主机防止发生脑裂,这里没有使用）
ssh_user=root				#设置ssh的登录用户名

[server1]
hostname=192.168.221.20
port=3306

[server2]
hostname=192.168.221.100
port=3306
candidate_master=1
#设置为候选master，设置该参数以后，发生主从切换以后将会将此从库提升为主库，即使这个主库不是集群中最新的slave
check_repl_delay=0
#默认情况下如果一个slave落后master 超过100M的relay logs的话，MHA将不会选择该slave作为一个新的master， 因为对于这个slave的恢复需要花费很长时间；通过设置check_repl_delay=0，MHA触发切换在选择一个新的master的时候将会忽略复制延时，这个参数对于设置了candidate_master=1的主机非常有用，因为这个候选主在切换的过程中一定是新的master

[server3]
hostname=192.168.221.110
port=3306

8、第一次配置需要在 Master 节点上手动开启虚拟IP

Master（192.168.221.20）

/sbin/ifconfig ens33:1 192.168.221.200/24

9、在 manager 节点上测试

（1）在 manager 节点上测试 ssh 无密码认证
MHAmanager（192.168.221.30）

masterha_check_ssh -conf=/etc/masterha/app1.cnf
#如果正常最后会输出 successfully；
#如果失败可以去配置服务器无密码认证的地方看看有没有问题

（2）在 manager 节点上测试 mysql 主从连接情况
MHAmanager（192.168.221.30）
masterha_check_repl -conf=/etc/masterha/app1.cnf
#最后出现 MySQL Replication Health is OK 字样说明正常；
#出现MySQL Replication Health is NOT OK!的，可以去看一下mysql服务器上的软链接是否少创建-->本文位置：2、修改三台MySQL服务器的主配置文件/etc/my.cnf，并创建命令软链接

（3）在 manager 节点上启动 MHA
MHAmanager（192.168.221.30）
nohup masterha_manager --conf=/etc/masterha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/masterha/app1/manager.log 2>&1 &
#------------------------组件解释----------------------------------------------------------------------------------
--remove_dead_master_conf：该参数代表当发生主从切换后，老的主库的 ip 将会从配置文件中移除。
--manger_log：日志存放位置。
--ignore_last_failover：在缺省情况下，如果 MHA 检测到连续发生宕机，且两次宕机间隔不足 8 小时的话，则不会进行 Failover， 之所以这样限制是为了避免 ping-pong 效应。该参数代表忽略上次 MHA 触发切换产生的文件，默认情况下，MHA 发生切换后会在日志记目录，也就是上面设置的日志app1.failover.complete文件，下次再次切换的时候如果发现该目录下存在该文件将不允许触发切换，除非在第一次切换后收到删除该文件，为了方便，这里设置为--ignore_last_failover。

10、查看相关状态

MHAmanager（192.168.221.30）

查看 MHA 状态，可以看到当前的 master 是 Mysql1 节点。
masterha_check_status --conf=/etc/masterha/app1.cnf

查看 MHA 日志，也以看到当前的 master 是 192.168.221.20
cat /var/log/masterha/app1/manager.log | grep "current master"

查看 Mysql1 的 VIP 地址，查看 Mysql1 的 VIP 地址 192.168.163.200 是否存在，这个 VIP 地址不会因为 manager 节点停止 MHA 服务而消失。
ifconfig

补充：若要关闭 manager 服务，可以使用如下命令。
masterha_stop --conf=/etc/masterha/app1.cnf
或者可以直接采用 kill 进程 ID 的方式关闭。

三、故障模拟

1、故障模拟

（1）在 manager 节点上监控观察日志记录
MHAmanager（192.168.221.30）

tail -f /var/log/masterha/app1/manager.log

（2）在 Master 节点 Mysql1 上停止mysql服务
mysql1（192.168.221.20）

systemctl stop mysqld
或
pkill -9 mysql
正常自动切换一次后，MHA 进程会退出。HMA 会自动修改 app1.cnf 文件内容，将宕机的 mysql1 节点删除。

（3）查看 mysql2 是否接管 VIP
mysql2（192.168.221.100）

ifconfig

（4）回到manager 节点上监控观察日志记录

tail -f /var/log/masterha/app1/manager.log

故障切换备选主库的算法：
1、一般判断从库的是从（position/GTID）判断优劣，数据有差异，最接近于master的slave，成为备选主。
2、数据一致的情况下，按照配置文件顺序，选择备选主库。
3、设定有权重（candidate_master=1），按照权重强制指定备选主。
（1）默认情况下如果一个slave落后master 100M的relay logs的话，即使有权重，也会失效。
（2）如果check_repl_delay=0的话，即使落后很多日志，也强制选择其为备选主。

2、故障修复

mysql1（192.168.221.20）
（1）修复master

systemctl restart mysqld
netstat -natp | grep 3306

mysql2（192.168.221.100）
（2）修复主从

在现主库服务器 Mysql2查看二进制文件和同步点
mysql -uroot -p123 -e 'show master status;'
#在数据库中执行show master status;

在原主库服务器 mysql1 执行同步操作
mysql1（192.168.221.20）
change master to master_host='192.168.221.100',master_user='myslave',master_password='123',master_log_file='master-bin.000001',master_log_pos=1747;

start slave;
show slave status\G

（3）在 manager 节点上修改配置文件app1.cnf
MHAmanager（192.168.221.30）

再把这个记录添加进去，因为它检测掉失效时候会自动消失
vim /etc/masterha/app1.cnf
……
secondary_check_script=/usr/local/bin/masterha_secondary_check -s 192.168.221.20 -s 192.168.221.110
......
[server1]
hostname=192.168.221.100
port=3306

[server2]
candidate_master=1
check_repl_delay=0
hostname=192.168.221.20
port=3306

[server3]
hostname=192.168.221.110
port=3306

（4）在 manager 节点上启动 MHA
MHAmanager（192.168.221.30）

masterha_stop --conf=/etc/masterha/app1.cnf

nohup masterha_manager --conf=/etc/masterha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/masterha/app1/manager.log 2>&1 &

masterha_check_status --conf=/etc/masterha/app1.cnf

到此这篇关于MySQL之高可用集群部署及故障切换实现的文章就介绍到这了,更多相关MySQL 高可用集群部署内容请搜索

更多Mysql内容来自木庄网络博客

标签：Mysql

返回前面的内容