python使用pandas按照行數分割表格

問題

  • 一張excel表格,大概1萬行,需要錄入系統
  • 系統每次最多隻能錄入500行表格數據,一旦超過500行,就會錄入失敗
  • 需要把1萬行的數據按照500行分割,形成20個表格,這樣才能錄入系統

思路

  • 使用pandas得到總行數,比如10002行,分割表格的時候,要保留一行表頭
  • 第一張表,是1-500行,第二張表是 501-1000,以此類推
  • 最後一張表應該是1000-10002行,生成的表格數量是10000/500+1,21張
  • 生成的表格按照順序保存到一個目錄中
  • 寫一個函數,可以按照任意指定的分割數量進行分割。

代碼實現

#按行數分割表格函數
#問題
#1.如果有有一個十萬行表格,要錄入系統,但是系統每次最多隻能錄入500行?
#解決問題:
#1.按照指定的行數分割表格
#2.分割出來的表格按照序號命名
import pandas as pd
import os
def SplitExcel(file,num):
    file_dir='result'   #創建目錄
    if os.path.isdir(file_dir):
        os.rmdir(file_dir)
    else:
        os.mkdir(file_dir)
    n = 1
    row_list = []
    df = pd.DataFrame(pd.read_excel(file, sheet_name=0))
    row_num = int(df.shape[0])  # 獲取行數
    if num >= row_num:  #如果分割行數大於總行數,報錯
        raise Exception('too much!!')
    try:
        for i in list(range(num,row_num,num)):
            row_list.append(i)
        row_list.append(row_num)  # 得到完整列表
    except Exception as e:
        print (e)

    (name,ext)=os.path.splitext(file)  #獲取文件名

    for m in row_list:

        filename=os.path.join(file_dir,name+'-' + str(n) + '.xlsx')
        if m <row_num:
            df_handle=df.iloc[m-num:m] #獲取n行之前
            print (df_handle)
            df_handle.to_excel(filename , sheet_name='sheet1',index=False)
        elif m == int(row_num):
            remainder=int(int(row_num)%num) #餘數
            df_handle=df.iloc[m-remainder:m] #獲取最後不能整除的行
            df_handle.to_excel(filename , sheet_name='sheet1', index=False)
        n = n + 1

if __name__=='__main__':
    file= 'result.xls'
    SplitExcel(file,num=10)

測試效果

一張83行的表格,去除表頭,一共82行,按照10行分割,一共要獲得9張表格,最後一張表格,應該隻有兩行,中間的表格,數據必須是連續的,

分割前

分割後

到此這篇關於python使用pandas按照行數分割表格的文章就介紹到這瞭,更多相關pandas按行分割表格內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: