解決python存數據庫速度太慢的問題
問題
在項目中遇到一個問題,需要從文本中讀取三萬條數據寫入mysql數據庫,文件中為用@分割的sql語句,但是在讀取的過程中發現速度過慢,三萬八千條數據需要220秒,問題代碼片段如下:
def read_to_mysql(filecata, targetDir): ''' 用來寫入數據庫,寫入後會剪貼掉文件 filecata 為保存有文件地址的list,已去掉尾部的空格 :param filecata: 文件目錄 :param targetDir: 要復制的目標目錄 :return: ''' root_dir = os.path.abspath(os.path.join(os.getcwd(), "./")) config = configparser.ConfigParser() config.read(root_dir + "/config.ini") __host = config.get("DatabaseOfWRT", "host") __database_name = config.get("DatabaseOfWRT", "database") __user_name = config.get("DatabaseOfWRT", "username") __user_passwaord = config.get("DatabaseOfWRT", "password") __charset = config.get("DatabaseOfWRT", "charset") conn = pymysql.connect( host=__host, user=__user_name, password=__user_passwaord, database=__database_name, charset=__charset ) cursor = conn.cursor() with open(filecata, "r", encoding='utf-8') as f: data = f.read() # 讀取文件 data_list = data.split('@') del data_list[-1] starttime = int(time.time()) for data_str in data_list: data_str = str(data_str) sql = data_str + ';' cursor.execute(sql) conn.commit() print(flag) copy_del_file(filecata, targetDir) # 用來剪切的函數,此處不影響,因而省略 cursor.close() conn.close()
解決方案
經測試發現,影響速度的主要原因是commit(),因為沒過幾秒提交一次即可,但是因為提交的字符長度有限制,所以要設置一個合理的時間讀取,代碼修改如下:
def read_to_mysql(filecata, targetDir): ''' 用來寫入數據庫,寫入後會剪貼掉文件 filecata 為保存有文件地址的list,已去掉尾部的空格 :param filecata: :param targetDir: 要復制的目標目錄 :return: ''' root_dir = os.path.abspath(os.path.join(os.getcwd(), "./")) config = configparser.ConfigParser() config.read(root_dir + "/config.ini") __host = config.get("DatabaseOfWRT", "host") __database_name = config.get("DatabaseOfWRT", "database") __user_name = config.get("DatabaseOfWRT", "username") __user_passwaord = config.get("DatabaseOfWRT", "password") __charset = config.get("DatabaseOfWRT", "charset") conn = pymysql.connect( host=__host, user=__user_name, password=__user_passwaord, database=__database_name, charset=__charset ) cursor = conn.cursor() with open(filecata, "r", encoding='utf-8') as f: data = f.read() # 讀取文件 data_list = data.split('@') del data_list[-1] starttime = int(time.time()) for data_str in data_list: endtime = int(time.time()) data_str = str(data_str) sql = data_str + ';' cursor.execute(sql) if endtime - starttime ==10: # 每過十秒提交一次 starttime = int(time.time()) conn.commit() conn.commit() copy_del_file(filecata, targetDir) cursor.close() conn.close() return flag
此時寫入三萬八千條數據需要9秒
補充:python 連數據庫cursur.fetchall ()速度慢的解決方案
解決遊標遍歷慢的方法:
一行一行去遍歷,而不是一下全部讀取出來
將cursur.fetchall()更改為for i in cursur:
補充:python 讀取文件時速度的問題
"""舉例 讀取文件""" # 第一種方式 with open('test.txt', 'r', encoding='utf-8') as f: info = f.readlines() for line in info: pass # 第二種方式 with open('test.txt', 'r', encoding='utf-8') as f: for line in f: pass
對於以上兩種方式讀取文件,各自有各自的用途,當用兩種方式都可以時,第二種方式的效率是第一種的幾個量級, readlines()將文件內容讀取到內存的list中,操作雖然方便,但是消耗內存,運行效率慢。
原生的f是將文件內容讀到生成器中, 當需要操作時,從生成器中循環出來,速度很快,操作大文件時建議用第二種方式!
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。
推薦閱讀:
- None Found