一篇文章搞懂Python反斜杠的相關問題

大傢在開發Python的過程中,一定會遇到很多反斜杠的問題,很多人被反斜杠的數量搞得頭大。

首先我們寫一段非常簡單的Python代碼,它的作用是把一個字段先轉換為JSON格式的字符串,然後把這個字符串再轉換為JSON格式的字符串:

import json
 
info = {'name': 'kingname', 'address': '杭州', 'salary': 99999}
info_json = json.dumps(info)
 
# 第一次轉換以後,打印出來
print(info_json)
 
info_json_json = json.dumps(info_json)
 
# 第二次轉換以後,再打印出來
print(info_json_json)

它的運行效果如下圖所示。

圖片

第一次,字典轉成JSON格式的字符串,隻有中文杭州變成瞭Unicode編碼\u676d\u5dde,其餘地方沒有出現反斜杠。

在Python裡面,反斜杠不能單獨出現,這裡\u676d\u5dde中的兩根反斜杠,實際上應該是\u。表示這兩個編碼是Unicode編碼。

接下來,把第一次生成的JSON字符串:{"name": "kingname", "address": "\u676d\u5dde", "salary": 99999}再一次轉成JSON格式的字符串,這一次變成瞭:

"{\"name\": \"kingname\", \"address\": \"\\u676d\\u5dde\", \"salary\": 99999}"

為什麼突然出現瞭這麼多反斜杠?這是因為,JSON格式的字符串本身是使用雙引號來表示字符串的。如果原來的字符串裡面本身就有雙引號,那就會導致混淆。此時,Python需要把原來字符串的雙引號變成普通的字符,失去雙引號的作用。因此使用\"讓雙引號變成普通的字符。

這就相當於在Python中,可以這樣定義一個包含雙引號的字符串:

>>> a = "跟我說:\"你好\""
>>> print(a)
跟我說:"你好"

這裡,你好兩側的雙引號都加上瞭反斜杠,讓它成為普通的字符,防止它們提前與最外層的雙引號配對。

如果不加反斜杠,就會導致字符串裡面的雙引號提前與外層的雙引號配對,引起語法錯誤:

>>> b = "跟我說:"你好""
  File "<stdin>", line 1
    b = "跟我說:"你好""
               ^
SyntaxError: invalid syntax

這裡,"跟我說:"成為瞭一個字符串,末尾的””成為瞭一個空字符串。那麼中間的你好就變成瞭一個沒有定義的變量。而Python裡面,是不存在字符串未定義的變量字符串這種寫法的,所以會報語法錯誤。

而JSON格式的字符串,本質上也是字符串,所以自然而然也需要遵循這樣的規則。因此,字符串原來自帶的雙引號左側就被加上瞭反斜杠。

那麼,原來的\u676d\u5dde為什麼變成瞭\\u676d\\u5dde

這是因為,當第二次執行json.dumps的時候,傳入的參數是一個JSON格式的字符串,本質就是字符串。而一個字符串裡面如果自帶反斜杠,那麼JSON在對他再次轉換的時候,需要標記這是一個普通的字符串形式的反斜杠,不是一個有特殊意義的反斜杠,所以使用\\表示一個普通的反斜杠。

好瞭,那麼你可以猜一下,如果把info_json_jsonjson.dumps一下會怎麼樣?

會變成:

"\"{\\\"name\\\": \\\"kingname\\\", \\\"address\\\": \\\"\\\\u676d\\\\u5dde\\\", \\\"salary\\\": 99999}\""

為什麼出現瞭三個反斜杠連用和四個反斜杠連用的問題?

實際上非常簡單,當你對info_json_json執行json.dumps的時候,Python是怎麼轉換的?

我們來看:

"{\"name\": \"kingname\", \"address\": \"\\u676d\\u5dde\", \"salary\": 99999}"

字符串執行json.dumps的時候,記住一個關鍵方法——從左到右,一個字符一個字符的轉換。

1. 第一個字符是雙引號,所以變成\”
2. 第二個字符是{,不是特殊符號,保留
3. 第三個字符是\,把它變成\\
4. 第四個字符是”,把它變成\”
5. ……

全部執行完成瞭,由於這次轉換是把一個字符串轉換為JSON格式的字符串,所以最外側加上雙引號。

於是就得到瞭:

"\"{\\\"name\\\": \\\"kingname\\\", \\\"address\\\": \\\"\\\\u676d\\\\u5dde\\\", \\\"salary\\\": 99999}\""

我們在爬蟲開發過程中,可能會遇到上面這種經過多次JSON轉換後的字符串,此時,千萬不要輕易使用字符串的.replace方法把多個反斜杠替換為空或者把兩個反斜杠替換為一個反斜杠。那樣做隻會導致你的數據更難解析。

正確的做法應該是嘗試對數據一層一層使用json.loads,把它一層一層還原,還原到最初的{'name': 'kingname', 'address': '杭州', 'salary': 99999}這種簡單形式。

好瞭,今天的介紹就到這裡,最後留一個思考題:

還是上面的代碼,現在把PyCharm的調試模式打開,然後數一數info_jsoninfo_json_json裡面反斜杠的個數,如下圖所示:

圖片

為什麼在info_json裡面,出現瞭\\u676d\\u5dde,為什麼在info_json_json裡面雙引號前是兩根反斜杠,而\"\\u676d\\u5dde\"竟然變成瞭\\"\\\\u676d\\\\u5dde

總結

到此這篇關於一篇文章搞懂Python反斜杠的文章就介紹到這瞭,更多相關Python反斜杠內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: