如何通過Python收集MySQL MHA 部署及運行狀態信息的功能
一. 背景介紹
當集團的MySQL數據庫實例數達到2000+、MHA集群規模數百個時,對MHA的及時、高效管理是DBA必須面對的一個挑戰。MHA 集群 節點信息 和 運行狀態 是管理的基礎。本篇幅主要介紹如何通過Python實現收集MHA 集群 節點信息 和 運行狀態的功能。這些信息將是CMDB信息的重要組成部分。
MHA集群數百個,MHAManager 節點 十幾個,一個MHAManager 節點管理著50-60個集群。 我們希望開發的程序,隻在這十幾個MHAManager 節點部署運行,就可以收集到所需的所有 MHA Server 節點信息、VIP 信息、運行狀態信息及其他信息,並且將收集到的數據保存到MySQL 數據庫中。
二.實現邏輯
2.1 程序調用的MHA工具程序或文件
工具程序或文件 | 功能 |
mha_appxxx.cnf 配置文件 |
1.從這個文件中 提取 Server 信息(Server IP); 2.提取 FailOver Script 和 Online Change Script的文件。 |
appxxx_master_ip_failover 腳本文件 | 提取定義的VIP,和其他處收集到的VIP,進行橫向比較,防止配置出錯。 |
appxxx_master_ip_online_change 腳本文件 | 提取定義的VIP,橫向比較防止配置出錯。 |
masterha_check_repl 工具程序 |
1.檢查MySQL復制狀況; 2.解析當前主節點IP; 3.解析 slave 節點IP; 4.解析出VIP。 |
masterha_check_status |
檢測當前MHA運行狀態(運行OK還是stop)。 |
為便於理解,我們貼上mha_appxxx.cnf 的內容。
[server default] manager_workdir=/var/log/masterha/app1.log //設置manager的工作目錄 manager_log=/var/log/masterha/app1/manager.log //設置manager的日志 master_binlog_dir=/data/mysql //設置master 保存binlog的位置,以便MHA可以找到master的日志,我這裡的也就是mysql的數據目錄 master_ip_failover_script= /usr/local/bin/appxxx_master_ip_failover //設置自動failover時候的切換腳本 master_ip_online_change_script= /usr/local/bin/appxxx_master_ip_online_change //設置手動切換時候的切換腳本 password=用戶密碼 //設置mysql中root用戶的密碼,這個密碼是前文中創建監控用戶的那個密碼 user=root 設置監控用戶root ping_interval=1 //設置監控主庫,發送ping包的時間間隔,默認是3秒,嘗試三次沒有回應的時候自動進行railover remote_workdir=/tmp //設置遠端mysql在發生切換時binlog的保存位置 repl_password=用戶密碼 //設置復制用戶的密碼 repl_user=repl //設置復制環境中的復制用戶名 report_script=/usr/local/send_report //設置發生切換後發送的報警的腳本 shutdown_script="" //設置故障發生後關閉故障主機腳本(該腳本的主要作用是關閉主機放在發生腦裂,這裡沒有使用) ssh_user=root //設置ssh的登錄用戶名 [server1] hostname=110.110.110.50 port=3306 [server2] hostname=110.110.110.60 port=3306 candidate_master=1 //設置為候選master,如果設置該參數以後,發生主從切換以後將會將此從庫提升為主庫,即使這個主庫不是集群中事件最新的slave check_repl_delay=0 //默認情況下如果一個slave落後master 100M的relay logs的話,MHA將不會選擇該slave作為一個新的master,因為對於這個slave的恢復需要花費很長時間,通過設置check_repl_delay=0,MHA觸發切換在選擇一個新的master的時候將會忽略復制延時,這個參數對於設置瞭candidate_master=1的主機非常有用,因為這個候選主在切換的過程中一定是新的master [server3] hostname=110.110.110.70 port=3306
2.2.程序簡單的流程圖
因是簡單流程圖,其中判斷及異常未在圖中標明。
三.主要代碼實現
3.1.創建保存收集信息的表
表命名為mysqldb_mha_info,其create 腳本如下:
create table `mysqldb_mha_info` ( `id` int(11) NOT NULL AUTO_INCREMENT, mha_manager_ip varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA管理節點所在集群的IP', mha_name varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA的名字,類似於副本集', mha_file_name varchar(250) NOT NULL DEFAULT '' COMMENT 'MHA .cnf 配置文件名字', mha_name_path varchar(250) NOT NULL DEFAULT '' COMMENT 'MHA .cnf 配置文件路徑和名字', `cnf_server1_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA cnf 配置文件中的節點1', `cnf_server2_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA cnf 配置文件中的節點2', `cnf_server3_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA cnf 配置文件中的節點3', failover_script varchar(250) NOT NULL DEFAULT '' COMMENT 'MHA failover scripts的文件', failover_script_vip varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA failover scripts 中定義的VIP', online_script varchar(250) NOT NULL DEFAULT '' COMMENT 'MHA online change scripts的文件', online_script_vip varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA online change scripts 中定義的VIP', script_remark varchar(1500) NOT NULL DEFAULT '' COMMENT 'MHA scripts VIP 檢查結果', masterha_status varchar(10) NOT NULL DEFAULT '' COMMENT 'MHA 檢查是否開啟,來自於 masterha_check_status 檢查結果', master_serverip varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 檢查是否開啟,來自於 masterha_check_status 檢查結果', `current_master_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 當前主節點,來自check_repl', `mha_current_vip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 當前VIP ,來自check_repl', `slave1_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 當前從節點1,來自check_repl', `slave2_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 當前從節點2 ,來自check_repl', mha_cnf_remark varchar(1500) NOT NULL DEFAULT '' COMMENT 'MHA check conf/cnf 檢查結果', check_repl_remark varchar(1500) NOT NULL DEFAULT '' COMMENT 'MHA check repl檢查結果', remark varchar(1500) NOT NULL DEFAULT '' COMMENT 'MHA 檢查結果', `creator` varchar(50) NOT NULL DEFAULT '', `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, `operator` varchar(50) NOT NULL DEFAULT '', `modify_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4
3.2 .連接DB的模塊
模塊命名為db_conn.py,在此模塊中,使用mysql-connector替代瞭MySQLdb。安裝更加簡便。
#!/usr/bin/python3 # -*- coding: UTF-8 -*- ##import MySQLdb 安裝模塊麻煩 import mysql.connector db = mysql.connector.connect(user='nideuid', password='nidepwd',host='nideseverip',database='DBname',port=XXXX)
3.3.功能實現模塊
文件為collect_mysqldbmha_info.py,其代碼如下:
#!/usr/bin/python # -*- coding: UTF-8 -*- import os import io import re import ConfigParser import socket import db_conn mysqldb = db_conn.db cursor = mysqldb.cursor() ## 第1部分 獲取本機IP try: s=socket.socket(socket.AF_INET,socket.SOCK_DGRAM) s.connect(('8.8.8.8',80)) mha_manager_ip=s.getsockname()[0] print('mha manager 所在主機的IP如下:') print(mha_manager_ip) finally: s.close() ### ##第2部分: 循環遍歷mha cnf 所在的文件夾,取出 cnf 進行判斷和檢查 Path='/date/funcation/python/mha_conf' #fout=open('輸出文件名','w') for Name in os.listdir(Path) : Pathname= os.path.join(Path,Name) ## print(Pathname) ## print(Name) mha_name = Name.replace(".cnf", "").replace(".conf", "") ###為MHA集群啟個名字 ##print(mha_name) ##註意此處為r,不能為w,否則報錯:IOError: File not open for reading with open(Pathname,'r') as f: filecontent=f.read() #print(filecontent) remark = '' ####調整為ConfigParser,註意python2 和 python 的模塊名字是不一樣的.ConfigParser與configparser config =ConfigParser.ConfigParser() try: config.read(Pathname) server_item = config.sections() ##print(server_item) ### start 獲取 MHA 切換時的scripts 文件名字 mha_failover_script = '' mha_online_change_script ='' mha_cnf_remark ='' if 'server default' in server_item: mha_failover_script = config.get('server default','master_ip_failover_script') ### mha_failover_script=mha_failover_script.replace(" --ssh_user=root", "") ##print(mha_failover_script) else: mha_cnf_remark = mha_cnf_remark + 'mha_failover_script 未配置;' if 'server default' in server_item: mha_online_change_script = config.get('server default','master_ip_online_change_script') ##print(mha_online_change_script) else: mha_cnf_remark = mha_cnf_remark + 'mha_online_change_script 未配置;' ###1.1 end 獲取結束 ##1.2 start 獲取MHA配置文件中的節點信息 server1_host = '' ##MHA cnf 配置文件中的節點1 server2_host = '' ##MHA cnf 配置文件中的節點2 server3_host = '' ##MHA cnf 配置文件中的節點3 if 'server1' in server_item: server1_host = config.get('server1','hostname') print(server1_host) else: server1_host = '' mha_cnf_remark = mha_cnf_remark + 'Server1未配置;' print(server1_host) if 'server2' in server_item: server2_host = config.get('server2','hostname') print(server2_host) else: server2_host = '' mha_cnf_remark = mha_cnf_remark + 'Server2未配置;' print(server2_host) if 'server3' in server_item: server3_host = config.get('server3','hostname') print(server3_host) ##else: ##server3_host = '' ##mha_cnf_remark = mha_cnf_remark + 'Server3未配置;' ##print(server3_host) ##1.2 獲取server節點信息結束 print(mha_cnf_remark) except Exception as e: print(e) #####第3部分 start 從 mha scripts 中提取 配置的VIP mha_remark = '' mha_failover_my_vip = '' mha_failover_flush_vip = '' mha_onlinechange_my_vip = '' mha_onlinechange_flush_vip ='' if len(mha_failover_script) <> 0 and len(mha_online_change_script) <> 0 : ##3.1 先來處置 failover_script,解析其中的VIP with open(mha_failover_script,'r') as f: failscript_lines=f.readlines() for failscript_line in failscript_lines: failscript_ip=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", failscript_line) if failscript_ip: if 'my $vip =' in failscript_line: mha_failover_my_vip = failscript_ip[0] print('解析出mha_failover_my_vip:') print(mha_failover_my_vip) if 'my $ssh_flush_vip' in failscript_line: mha_failover_flush_vip = failscript_ip[0] print('解析出mha_failover_flush_vip:') print(mha_failover_flush_vip) ##文件讀取完畢,對讀取結果進行判斷,判斷兩種情況 ## 一種是否未定義 if mha_failover_my_vip =='': mha_remark = mha_remark + 'MHA failover 未提取到VIP的設置,請檢查;' ## 另外一種,,定義瞭,但是值不相等 if mha_failover_my_vip <> mha_failover_flush_vip: mha_remark = mha_remark + 'MHA failover scripts文件中設置的兩處VIP不一致,請檢查;' ## 3.2 處理online change scripts ,解析提取其中的VIP信息 with open(mha_online_change_script,'r') as f: onlinescript_lines=f.readlines() for onlinescript_line in onlinescript_lines: onlinescript_ip=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", onlinescript_line) if onlinescript_ip: if 'my $vip =' in onlinescript_line: mha_onlinechange_my_vip = onlinescript_ip[0] print('解析出mha_onlinechange_my_vip:') print(mha_onlinechange_my_vip) if 'my $ssh_flush_vip' in onlinescript_line: mha_onlinechange_flush_vip = onlinescript_ip[0] print('解析出mha_onlinechange_flush_vip:') print(mha_onlinechange_flush_vip) #### online change 文件讀完瞭,判斷定義的VIP是否符合要求 if mha_onlinechange_my_vip =='': mha_remark = mha_remark + 'MHA online change scripts未提取到VIP的設置,請檢查;' if mha_onlinechange_my_vip <> mha_onlinechange_flush_vip: mha_remark = mha_remark + 'MHA online change scripts文件中設置的兩處VIP不一致,請檢查;' #### 兩個文件都讀取瞭,判斷兩個文件中定義的VIP是否一致 if mha_onlinechange_my_vip <> mha_failover_my_vip: mha_remark = mha_remark + 'MHA online change script 和 failover script 中的VIP不一致,請檢查。' else: mha_remark = mha_remark + 'MHA init 的配置文件未正確定義切換的scripts,請檢查。' #print('MHA init 的配置文件未正確定義 切換的scripts,請檢查。') print(mha_remark) #####第2部分 end 從 mha scripts 中提取 配置的VIP #### 第4部分,從masterha_check_status執行結果中判斷mha進程狀態 ## 從 執行masterha_check_status結果中解析出的 masterha_status 和 master_serverip 的數據 masterha_status ='' master_serverip ='' ## 從 執行masterha_check_repl結果中解析出的 current_master 、current_slave1、current_slave2 和 mha_current_vip 的數據 current_master = '' current_slave1 = '' current_slave2 = '' mha_current_vip ='' ##判斷下文件是否是MHA的配置文件,判斷方式就是文件中 必須有 server default\server1的sections if 'server default' in server_item and 'server1' in server_item : ##cmd_mha_status ='/usr/local/bin/masterha_check_status --conf=/etc/mha/opszabbix.cnf' cmd_mha_status ='/usr/local/bin/masterha_check_status --conf='+Pathname try: mha_status=os.popen(cmd_mha_status) mha_status_result = mha_status.read() print(mha_status_result) ##返回樣式為 XXXX (pid:------) is running(0:PING_OK), master:XXX.XXX.XXX.XXX ### 判斷狀態是否為運行中 if 'running(0:PING_OK)' in mha_status_result: masterha_status='Running' ##抓取MHA的Master 節點 ##master_serverip = mha_status_result[mha_status_result.rfind('master:'):] master_serverip = mha_status_result.split('master:')[1] print(master_serverip) print('MHA啟動運行正常') elif 'stopped(2:NOT_RUNNING)' in mha_status_result: masterha_status='stopped' print('MHA未啟動!!!') finally: if mha_status: mha_status.close() #### 第5部分,從masterha_check_repl的執行結果中,判斷解析 主、從節點、VIP節點 ## 判斷 副本集 的狀況 cmd_repl_status ='/usr/local/bin/masterha_check_repl --conf='+Pathname try: ##### 添加 2> error 參數,不需要打印出調試信息。 cmd_repl_status_result = cmd_repl_status + ' 2> checkrepl.log' repl_status=os.popen(cmd_repl_status_result) repl_status_result = repl_status.read() ##print(repl_status_result) if 'MySQL Replication Health is OK' in repl_status_result: print('MHA集群的主從正常') ###獲取ServerIP #######調試信息是輸出到2號流中的,所以一定 添加 2>&1,否則抓取不到節點信息,隻能抓到一個VIP。 cmd_repl_status_info = cmd_repl_status + ' 2>&1' with os.popen(cmd_repl_status_info,'r') as repl_status_check2: #repl_status_lines=repl_status_check2.readlines() repl_status_lines=repl_status_check2.readlines() ##print(len(repl_status_lines)) ####打印出list的元素個數 for repl_status_line in repl_status_lines: ##print('################## start ###########################') ##print(str(repl_status_line).replace("\n", "").replace("\t", "")) ##repl_status_line ='Current Alive Master: 10.200.58.63(10.200.58.63:55988)' serverip_result=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", repl_status_line) if serverip_result: if 'Current Alive Master:' in repl_status_line: current_master = serverip_result[0] print('已解析到主節點IP') print(current_master) elif 'Checking replication health on' in repl_status_line and current_slave1 == '': ###有可能有2個從節點,此處為第1個從節點 current_slave1 = serverip_result[0] print('已解析到從節點1') print(current_slave1) elif 'Checking replication health on' in repl_status_line and current_slave1 <> '': ###有可能有2個從節點,此處為第2個從節點 current_slave2 = serverip_result[0] print('已解析到從節點2') print(current_slave2) elif 'Checking replication health on' in repl_status_line and current_slave1 <> '': ###有可能有2個從節點,此處為第2個從節點 print('集群有3個或更多的從節點,請確認。') if 'down==/sbin/ifconfig ' in repl_status_line: mha_current_vip = serverip_result[0] print('已解析到MHA集群的VIP') print(mha_current_vip) ##print('包含serverip') ##print(serverip_result) #else: #print('不包含ServerIP') ##else: ##print(repl_status_line) ##print('################## end ###########################') ####獲取IP部分結束 else: print('MHA集群的主從異常,請及時檢查') finally: if repl_status: repl_status.close() else: remark = Pathname + '...... 不是MHA的配置文件,請檢查!' print(remark) ##### 第6部分,將數據保存到表中 sql_insert = "insert into mysqldb_mha_info(mha_manager_ip,mha_name,mha_file_name,mha_name_path,cnf_server1_ip,cnf_server2_ip,cnf_server3_ip,failover_script,failover_script_vip,online_script,online_script_vip,masterha_status,master_serverip,current_master_ip,mha_current_vip,slave1_ip,slave2_ip,mha_cnf_remark,script_remark,remark) " \ "values('%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s')" % \ (mha_manager_ip,mha_name,Name,Pathname,server1_host,server2_host,server3_host,mha_failover_script,mha_failover_my_vip,mha_online_change_script,mha_onlinechange_my_vip,masterha_status,current_master,master_serverip,mha_current_vip,current_slave1,current_slave2,mha_cnf_remark,mha_remark,remark) ##print(sql_insert) cursor.execute(sql_insert) mysqldb.commit() ##### # 關閉遊標 cursor.close() # 關閉數據庫連接 mysqldb.close()
3.4.代碼運行
Python 運行環境為:Python 2.7.5
執行命令:
python /data/XXXX路徑/collect_mysqldbmha_info.py
定期收集,請根據需要設置cron.
到此這篇關於通過Python收集MySQL MHA 部署及運行狀態信息的功能實現的文章就介紹到這瞭,更多相關Python收集MySQL MHA 部署內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- MySQL之MHA高可用配置及故障切換實現詳細部署步驟
- MySQL高可用架構之MHA架構全解
- MySQL MHA 運行狀態監控介紹
- MySQL 有關MHA搭建與切換的幾個錯誤log匯總
- Mysql主從復制與讀寫分離圖文詳解