關於python處理大型json文件的方法

如圖所示,要處理的數據是一個json數組,而且非常大

下圖為電腦配置,使用 json.load() 方法加載上述json文件電腦直接卡死

解決思路:

    先用python進行預處理,即一整個json數據加載慢,那就分開加載,每次加載一個json對象,然後使用 json.dumps()方法 存儲到txt中,方便讀取。當然也可以存儲到內存中,根據情況而定。

    算法思想:因為 json 是一種結構化的數據,所以 {} 是成對存在的。因為使用逐行讀取的方法讀入json文件,所以根據 {} 的數量來判斷是否讀取瞭一個完整的json對象,如果是完整的,則使用 json.dumps()方法 存儲到txt中。

    getUsefullData(temp + line,id)這個方法是提取自己需要的數據

def jsonProcess(fileName,round):
    id = 1
    with open(fileName, 'r', encoding='utf-8') as f,open('../tempData/tempFile'+str(round)+'.txt','w') as tempFile:
        line = f.readline()
        line = f.readline()
        temp = ''
        khNum = 0
        id = 1
        while line:
            # print(line)
            if line.find('{') != -1:
                khNum += 1
    
            if line.find('}') != -1:
                khNum -= 1
    
            if khNum == 0:
                line = line.replace(',','')
                data = getUsefullData(temp + line,id)
                id += 1
                if len(data) > 1:
                    # print(data)
                    try:
                        tempFile.write(json.dumps(data)+'\n')
                    except 'json.decoder.JSONDecodeError':
                        break
                temp = ''
                line = f.readline()
                continue
            temp += line
            line = f.readline()

      讀取方法:

with open('../tempData/tempFile'+str(round)+'.txt') as f:
        dataList = f.readlines()
        # 解析保存好的list
        for data in dataList:
            data = json.loads(data)

到此這篇關於python處理大型json文件的方法的文章就介紹到這瞭,更多相關python處理大型json文件內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: