Python爬蟲之爬取二手房信息
前言
說到二手房信息,不知道你們心裡最先跳出來的公司(網站)是什麼,反正我心裡第一個跳出來的是網站是 58 同城。哎呦,我這暴脾氣,想到就趕緊去幹。
但很顯然,我失敗瞭。說顯然,而不是不幸,這是因為 58 同城是大公司,我這點本事爬不瞭數據是再正常不過的瞭。下面來看看 58 同城的反爬手段瞭。這是我爬取下來的網頁源碼。
我們看到爬取下來的源碼有很多英文大寫字母和數字是網頁源碼中沒有的,後來我瞭解到 58 同城對自己的網站的源碼進行瞭文本加密,所以就出現瞭我爬取到的情況。
爬取二手房信息
我打開 58 同城的 robots 協議。
好傢夥,不愧是大公司,所有的動態網址都不讓爬取,打擾瞭。我隻好轉頭離開,去尋找可以讓我這種小白爬取的二手房網站。於是我找到瞭c21網站,不知道是我的原因,還是別的原因,反正我是沒有找到這個網站的 robots 協議。不管瞭,既然沒找到,就默認沒有吧,直接開始爬取。
我本來打算通過二手房的目錄跳到一個具體信息,然後爬取二手房的一些基本信息和屬性。
像我紅筆圈起來的部分。但很可惜我失敗瞭,後來我看瞭看紅筆圈起來的部分的爬取到的源碼。
好傢夥,還可以這樣。不過這怎麼可以難倒機智的我?(其實我真不知道怎麼解決它)。沒關系,之前的源碼裡不是有類似的信息嗎?我隻好將就一下瞭。
然後是翻頁。翻頁問題很好解決,我們很快就發現網頁都是 https://bj.c21.com.cn/ershoufang/pg2/。其中的頁數和 pg 後面的數字有關。
然後就是分析這些數據源碼的位置瞭。
首先,我們發現我們要爬取的數據全在 li 標簽裡,所以我們可以先獲得 li 標簽的列表。偽代碼就像這樣。
form lxml import etree …… …… tree = etree.HTML(源碼) li_list = tree.xpath( li 標簽的路徑)
這時候我們獲得的就是 li 標簽的 etree 的類,可以繼續使用 etree 類裡的函數。然後我們就可以利用 for 循環提出不同房源的 li 標簽,根據自己的需要獲取文本信息。
歐克,瞭解瞭這些(感覺源碼前前後後就是四個字 ”我是菜雞“ )我們就可以開始寫代碼瞭。
import requests from lxml import etree import re if __name__ == "__main__": # UA偽裝 header = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36" } for pg in range(1, 3): # 翻兩頁 # 指定 url url = "https://bj.c21.com.cn/ershoufang/pg%s/" % str(pg) # 獲取網頁源碼 page = requests.get(url = url, headers = header).text # xpath 解析 tree = etree.HTML(page) li_list = tree.xpath('//ul[@id="availability"]/li') for li in li_list: title = li.xpath('div[2]/div/a/text()')[0] # 房子的名稱 # print(title[0]) # 測試 add = li.xpath('div[2]/div/p//a/text()') # 地址 add = add[-2: ] + add[0:1] # 地址范圍由大到小 # print(add) # 測試 div_list = li.xpath('div[2]/div[2]/div') # 具體信息 message_list = ["建築面積", "房屋戶型", "房屋朝向", "所在樓層", "裝修情況", "建成時間"] for i in range(6): div = div_list[i] message = div.xpath('span/text()')[0] message = re.sub("\s", "", str(message)) # 因為發現獲取的文本有很多換行符和空格,所以需要去掉 message = re.sub("\\n", "", str(message)) message_list[i] = message_list[i] + ":" + message # print(message_list) # 測試 # 交通情況 traffic = li.xpath('div[2]/div[4]//text()') # print(traffic) # 測試 # 價格情況 price = li.xpath('div[2]/div[3]//text()') price = price[0] + price[1] # print(price) # 測試 with open("C:\\Users\\ASUS\\Desktop\\CSDN\\數據解析\\xpath\\二手房\\" + "二手房.txt", "a", encoding = "utf-8") as fp: fp.write(title + "\n") for message in message_list: fp.write(message + "\n") if traffic == []: fp.write("交通情況:無介紹" + "\n") else: fp.write("交通情況:" + traffic[0] + "\n") fp.write("價格:" + price + "\n\n") print(title, "下載完成!!!") print("over!!!")
爬取結果
最後的運行結果就像這樣
到此這篇關於Python爬蟲之爬取二手房信息的文章就介紹到這瞭,更多相關Python爬取二手房信息內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- python爬取一組小姐姐圖片實例
- Python爬蟲必備之XPath解析庫
- Python xpath,JsonPath,bs4的基本使用
- python使用xpath獲取頁面元素的使用
- Python爬蟲之線程池的使用