Python中優雅處理JSON文件的方法實例

1. 引言

在本文中,我們將學習如何使用Python讀取、解析和編寫JSON文件。
我們將討論如何最好地處理簡單的JSON文件以及嵌套的JSON文件,當然我們也將討論如何訪問Json文件數據中的特定值。

2. 什麼是JSON文件?

JSON(Java Script Object Notation)是一種流行的文件格式,主要用於在web應用程序中存儲和傳輸數據。如果我們經常和數據打交道,那麼一定或多或少遇到過JSON格式的文件,因此我們有必要來學習如何讀取和寫入JSON。

下圖為常見的JSON文件結構的示例.

JSON結構看起來和Python中的字典非常類似。需要註意的是,JSON格式通常是由key: 結對組成,其中key是字符串形式,value是字符串、數字、佈爾值、數組、對象或null。

為瞭更直觀的進行說明,在下圖中我們以藍色突出顯示瞭所有的key,同時以橙色突出顯示瞭所有的value。請註意,以下每組key/value間均使用逗號進行區分。

3. 使用Python處理JSON文件

在Python中內置瞭用於讀取JSON文件的函數。以下給出幾個如何將JSON文件解析為Python對象的示例。

3.1. 將JSON文件讀取為字典類型

首先我們需要導入 json庫, 接著我們使用open函數來讀取JSON文件,最後利用json.load()函數將JSON字符串轉化為Python字典形式.

就這麼簡單,代碼如下:

import json
 
with open('superheroes.json') as f:
    superHeroSquad = json.load(f)
    
print(type(superHeroSquad))  # Output: dict
print(superHeroSquad.keys())
# Output: dict_keys(['squadName', 'homeTown', 'formed', 'secretBase', 'active', 'members'])

上述代碼很簡單很直觀啦,唯一需要註意的是json庫中有load()和loads()兩個函數.

函數load()作用為讀取JSON文件生成Python對象函數loads()作用為讀取JSON 字符串流生成Python對象

我們可以將loads()函數中的字符s的含義理解成 load for strings.

3.2. 將JSON文件讀取為Pandas類型

當然我們也可以使用Pandas庫中的 read_json函數來讀取對應的JSON文件,

代碼如下:

import pandas as pd
df = pd.read_json('superheroes.json')

運行結果如下:

需要註意的是使用Pandas庫不僅僅可以讀取電腦本地磁盤上的JSON文件,也可以通過URL讀取網絡上存放的文件.

代碼如下:

df1 = pd.read_json('https://mdn.github.io/learning-area/javascript/oojs/json/superheroes.json')

3.3. 使用Pandas讀取嵌套JSON類型

我們有時候遇到的JSON文件是嵌套的,這經常會讓讀取工作變得有些困難. 其實嵌套JSON和Python中的嵌套字典思想類似,即字典中嵌套字典.

我們觀察上述例子中的member字段,其值也為字典類型,下圖中我們使用縮進來展示嵌套結構。

設想一下,當我們將JSON文件加載到Pandas數據框架中時,members列如下所示。每行包含一個字典。


接下來我們討論兩種實現方法,這兩種方法中,我們可以解析數據,以便將每個鍵分解為單獨的一列。

方案一

我們可以在members這一列上使用apply方法,代碼如下:

df['members'].apply(pd.Series)

上述代碼執行後,members列會被拆分為4個新列,如下所示:

當然如果你想將上述拆分後的結果和之前的結果進行合並,可以使用pd.concat函數,

代碼如下:

df = pd.concat([df['members'].apply(pd.Series), df.drop('members', axis = 1)], axis = 1)

方案二

在Pandas庫中還有一個函數 json_normalize() ,它允許我們把嵌套的JSON展開。這是最簡單的方法來解析嵌套的JSON瞭。

代碼如下:

def test2():
    with open('superheroes.json') as f:
        superHeroSquad = json.load(f)
    out = pd.json_normalize(superHeroSquad, record_path=['members'],
                      meta=['squadName', 'homeTown', 'formed', 'secretBase', 'active'])
    print(out)

上述代碼中:

  • record_path為我們希望拆分的列的名字
  • meta為列名的list,為我們輸出的次序

運行結果如下:

最後我們需要註意的是,我們可以在上述函數json_normalize中添加參數 meta_prefix,這樣可以讓我們對meta中的名字添加統一的前綴。

代碼如下:

pd.json_normalize(superHeroSquad, 
	record_path = ['members'], 
	meta = ['squadName', 'homeTown', 'formed', 'secretBase', 'active'], 
	meta_prefix = 'members_')

行結果如下:

3.4. 訪問特定位置的數據

在Python中我們可以通過Key的名字或者下標來訪問JSON文件中任意位置的數據。

比如,假設我們想知道我們的第二個超級英雄的秘密身份。即在下圖中,需要訪問特定位置的數據在下圖中以紫色突出顯示。

為瞭得到這個值,我們可以直接使用以下語句:

superHeroSquad['members'][1]['secretIdentity']

從層次結構的頂部開始,由上往下,我們需要的第一個key是’members’,因為它是我們需要訪問的值所在的父節點。

在‘members’對應的鍵值中,我們看中括號,然後下標1表示list中的第二個成員。接著我們來看字段’secretIdentity’,如下所示:

將上述過程合並在一起,我們就可以得到我們特定位置出的值為’Jane Wilson’。

細心的同學可能已經註意到,我在上面的JSON片段中突出顯示瞭兩個藍色的值。希望感興趣的同學們可以作為練習來嘗試訪問這些值。歡迎在文章後面的評論區中分享你的代碼。

3.5. 導出JSON

讓我們編輯一下我們最後一位超級英雄,將其secretIdentity從‘Unknow’更改為‘Will Smith’,接著將這個字典導出為JSON文件。這裡我們將使用json.dump()函數將字典寫入文件。

代碼如下:

#update secret identity of Eternal Flame
superHeroSquad['members'][2]['secretIdentity'] = 'Will Smith'
with open('superheroes.json', 'w') as file:
    json.dump(superHeroSquad, file)

上述代碼運行後,我們打開文件superheroes.json,可以發現最後一名超級英雄的secretIdentity已經由Unknow變為瞭Will Smith.

當然,作為選擇,我們也可以使用Pandas中的to_json()函數,完成上述功能。

df.to_json('superheroes.json')

3.6. 格式化輸出

我們有時候在終端直接打印json文件,通常會得到很不美觀的輸出,樣例如下:

為瞭讓其看起來更加美觀,我們這裡可以在函數json.dump中采用參數indent參數來控制輸出格式,代碼如下:

with open('superheroes.json', 'w') as file:
    json.dump(superHeroSquad, file, indent = 4)

結果輸出如下,是不是看上去更加美觀啦。。。

3.7. 輸出字段排序

當然dump函數中含有字段sort_key,通過設置其值,可以控制輸出時是否對key進行排序。需要註意所有的key包括嵌套的key都會進行排序。

樣例如下:

with open('superheroes.json', 'w') as file:
    json.dump(superHeroSquad, file, indent = 4, sort_keys = True)

運行結果如下:

4.總結

最後,讓我們對本文做一下回顧,總結如下:

  • JSON文件通常由key:結對組成,這裡key通常為字符串格式,value一般為字符串,數字,佈爾,數組,對象或者null
  • Python有內置函數可以方便的讀取JSON文件轉化為Python中的字典類型或者Pandas可以處理的類型
  • 使用pd.read_json()來讀取簡單的JSON,使用pd.json_normalize()來讀取嵌套的JSON
  • 我們可以通過key的名字或者下標來方便的獲取JSON文件中特定位置的值
  • Python對象可以轉化為JSON文件,同時可以對輸出進行格式化輸出以增加可讀性

5.參考

鏈接一

到此這篇關於Python中優雅處理JSON文件的文章就介紹到這瞭,更多相關Python優雅處理JSON文件內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: