python實現MySQL指定表增量同步數據到clickhouse的腳本
python實現MySQL指定表增量同步數據到clickhouse,腳本如下:
#!/usr/bin/env python3 # _*_ coding:utf8 _*_ from pymysqlreplication import BinLogStreamReader from pymysqlreplication.row_event import (DeleteRowsEvent,UpdateRowsEvent,WriteRowsEvent,) import clickhouse_driver import configparser import os configfile='repl.ini' ########## 配置文件repl.ini 操作 ################## def create_configfile(configfile,log_file,log_pos): config = configparser.ConfigParser() if not os.path.exists(configfile): config['replinfo'] = {'log_file':log_file,'log_pos':str(log_pos)} with open(configfile,'w+') as f: config.write(f) ### repl.ini 寫操作 ################## def write_config(configfile,log_file,log_pos): config = configparser.ConfigParser() config.read(configfile) config.set('replinfo','log_file',log_file) config.set('replinfo','log_pos',str(log_pos)) if os.path.exists(configfile): with open(configfile,'w+') as f: config.write(f) else: create_configfile(configfile) ### 配置文件repl.ini 讀操作 ################## def read_config(configfile): config = configparser.ConfigParser() config.read(configfile) # print(config['replinfo']['log_file']) # print(config['replinfo']['log_pos']) return (config['replinfo']['log_file'],int(config['replinfo']['log_pos'])) ############# clickhouse 操作 ################## def ops_clickhouse(db,table,sql): column_type_dic={} try: client = clickhouse_driver.Client(host='127.0.0.1',\ port=9000,\ user='default',\ password='clickhouse') # sql="select name,type from system.columns where database='{0}' and table='{1}'".format(db,table) client.execute(sql) except Exception as error: message = "獲取clickhouse裡面的字段類型錯誤. %s" % (error) # logger.error(message) print(message) exit(1) MYSQL_SETTINGS = {'host':'127.0.0.1','port':13306,'user':'root','passwd':'Root@0101'} only_events=(DeleteRowsEvent, WriteRowsEvent, UpdateRowsEvent) def main(): ## 每次重啟時,讀取上次同步的log_file,log_pos (log_file,log_pos) = read_config(configfile) # print(log_file+'|'+ str(log_pos)) print('-----------------------------------------------------------------------------') stream = BinLogStreamReader(connection_settings=MYSQL_SETTINGS, resume_stream=True, blocking=True, \ server_id=10, only_tables='t_repl', only_schemas='test', \ log_file=log_file,log_pos=log_pos, \ only_events=only_events, \ fail_on_table_metadata_unavailable=True, slave_heartbeat=10) try: for binlogevent in stream: for row in binlogevent.rows: ## delete操作 if isinstance(binlogevent, DeleteRowsEvent): info = dict(row["values"].items()) # print("DELETE FROM `%s`.`%s` WHERE %s = %s ;" %(binlogevent.schema ,binlogevent.table,binlogevent.primary_key,info[binlogevent.primary_key]) ) # print("ALTER TABLE `%s`.`%s` DELETE WHERE %s = %s ;" %(binlogevent.schema ,binlogevent.table,binlogevent.primary_key,info[binlogevent.primary_key]) ) sql="ALTER TABLE `%s`.`%s` DELETE WHERE %s = %s ;" %(binlogevent.schema ,binlogevent.table,binlogevent.primary_key,info[binlogevent.primary_key]) ## update 操作 elif isinstance(binlogevent, UpdateRowsEvent): info_before = dict(row["before_values"].items()) info_after = dict(row["after_values"].items()) # info_set = str(info_after).replace(":","=").replace("{","").replace("}","") info_set = str(info_after).replace(":", "=").replace("{", "").replace("}", "").replace("'","") # print("UPDATE `%s`.`%s` SET %s WHERE %s = %s ;"%(binlogevent.schema,binlogevent.table,info_set,binlogevent.primary_key,info_before[binlogevent.primary_key] ) ) # print("ALTER TABLE %s.%s UPDATE %s WHERE %s = %s ;"%(binlogevent.schema,binlogevent.table,info_set,binlogevent.primary_key,info_before[binlogevent.primary_key] ) ) sql = "ALTER TABLE %s.%s UPDATE %s WHERE %s = %s ;"%(binlogevent.schema,binlogevent.table,info_set,binlogevent.primary_key,info_before[binlogevent.primary_key] ) ## insert 操作 elif isinstance(binlogevent, WriteRowsEvent): info = dict(row["values"].items()) # print("INSERT INTO %s.%s(%s)VALUES%s ;"%(binlogevent.schema,binlogevent.table , ','.join(info.keys()) ,str(tuple(info.values())) ) ) sql = "INSERT INTO %s.%s(%s)VALUES%s ;"%(binlogevent.schema,binlogevent.table , ','.join(info.keys()) ,str(tuple(info.values())) ) ops_clickhouse('test', 't_repl',sql ) # 當前log_file,log_pos寫入配置文件 write_config(configfile, stream.log_file, stream.log_pos) except Exception as e: print(e) finally: stream.close() if __name__ == "__main__": main() ''' BinLogStreamReader()參數 ctl_connection_settings:集群保存模式信息的連接設置 resume_stream:從位置或binlog的最新事件或舊的可用事件開始 log_file:設置復制開始日志文件 log_pos:設置復制開始日志pos(resume_stream應該為true) auto_position:使用master_auto_position gtid設置位置 blocking:在流上讀取被阻止 only_events:允許的事件數組 ignored_events:被忽略的事件數組 only_tables:包含要觀看的表的數組(僅適用於binlog_format ROW) ignored_tables:包含要跳過的表的數組 only_schemas:包含要觀看的模式的數組 ignored_schemas:包含要跳過的模式的數組 freeze_schema:如果為true,則不支持ALTER TABLE。速度更快。 skip_to_timestamp:在達到指定的時間戳之前忽略所有事件。 report_slave:在SHOW SLAVE HOSTS中報告奴隸。 slave_uuid:在SHOW SLAVE HOSTS中報告slave_uuid。 fail_on_table_metadata_unavailable:如果我們無法獲取有關row_events的表信息,應該引發異常 slave_heartbeat:(秒)主站應主動發送心跳連接。這也減少瞭復制恢復時GTID復制的流量(在許多事件在binlog中跳過的情況下)。請參閱mysql文檔中的MASTER_HEARTBEAT_PERIOD以瞭解語義 '''
知識點擴展:
MySQL備份-增量同步
mysql增量同步主要使用binlog文件進行同步,binlog文件主要記錄的是數據庫更新操作相關的內容。
1. 備份數據的意義
針對不同業務,7*24小時提供服務和數據的重要性不同。
數據庫數據是比較核心的數據,對企業的經營至關重要,數據庫備份顯得尤為重要。
2. 備份數據庫
MySQL數據庫自帶的備份命令 `mysqldump`,基本使用方法:
語法:`mysqldump -u username -p password dbname > filename.sql`
執行備份命令
`mysqldump -uroot -pmysqladmin db_test > /opt/mysql_bak.sql`
查看備份內容
`grep -v “#|\*|–|^$” /opt/mysql_bak.sql`
到此這篇關於python實現MySQL指定表增量同步數據到clickhouse的腳本的文章就介紹到這瞭,更多相關python實現MySQL增量同步數據內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- 如何通過Python收集MySQL MHA 部署及運行狀態信息的功能
- MySQL 8.0新特性之隱藏字段的深入講解
- Python常用配置文件ini、json、yaml讀寫總結
- 通過Python收集匯聚MySQL 表信息
- MySQL 重命名表的操作方法及註意事項