端午節將至,用Python爬取粽子數據並可視化,看看網友喜歡哪種粽子吧!
一、前言
本文就從數據爬取、數據清洗、數據可視化,這三個方面入手,但你簡單完成一個小型的數據分析項目,讓你對知識能夠有一個綜合的運用。
整個思路如下:
- 爬取網頁:https://www.jd.com/
- 爬取說明: 基於京東網站,我們搜索網站“粽子”數據,大概有100頁。我們爬取的字段,既有一級頁面的相關信息,還有二級頁面的部分信息;
- 爬取思路: 先針對某一頁數據的一級頁面做一個解析,然後再進行二級頁面做一個解析,最後再進行翻頁操作;
- 爬取字段: 分別是粽子的名稱(標題)、價格、品牌(店鋪)、類別(口味);
- 使用工具: requests+lxml+pandas+time+re+pyecharts
- 網站解析方式: xpath
最終的效果如下:
二、數據爬取
京東網站,一般是動態加載的,也就是說,采用一般方式隻能爬取到某個頁面的前30個數據(一個頁面一共60個數據)。
基於本文,我僅用最基本的方法,爬取瞭每個頁面的前30條數據(如果大傢有興趣,可以自行下去爬取所有的數據)。
那麼,本文究竟爬取瞭哪些字段呢?我給大傢做一個展示,大傢有興趣,可以爬取更多的字段,做更為詳細的分析。
下面為大傢展示爬蟲代碼:
import pandas as pd import requests from lxml import etree import chardet import time import re def get_CI(url): headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; X64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'} rqg = requests.get(url,headers=headers) rqg.encoding = chardet.detect(rqg.content)['encoding'] html = etree.HTML(rqg.text) # 價格 p_price = html.xpath('//div/div[@class="p-price"]/strong/i/text()') # 名稱 p_name = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/em') p_name = [str(p_name[i].xpath('string(.)')) for i in range(len(p_name))] # 深層url deep_ur1 = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/@href') deep_url = ["http:" + i for i in deep_ur1] # 從這裡開始,我們獲取“二級頁面”的信息 brands_list = [] kinds_list = [] for i in deep_url: rqg = requests.get(i,headers=headers) rqg.encoding = chardet.detect(rqg.content)['encoding'] html = etree.HTML(rqg.text) # 品牌 brands = html.xpath('//div/div[@class="ETab"]//ul[@id="parameter-brand"]/li/@title') brands_list.append(brands) # 類別 kinds = re.findall('>類別:(.*?)</li>',rqg.text) kinds_list.append(kinds) data = pd.DataFrame({'名稱':p_name,'價格':p_price,'品牌':brands_list,'類別':kinds_list}) return(data) x = "https://search.jd.com/Search?keyword=%E7%B2%BD%E5%AD%90&qrst=1&wq=%E7%B2%BD%E5%AD%90&stock=1&page=" url_list = [x + str(i) for i in range(1,200,2)] res = pd.DataFrame(columns=['名稱','價格','品牌','類別']) # 這裡進行“翻頁”操作 for url in url_list: res0 = get_CI(url) res = pd.concat([res,res0]) time.sleep(3) # 保存數據 res.to_csv('aliang.csv',encoding='utf_8_sig')
最終爬取到的數據:
三、數據清洗
從上圖可以看到,整個數據算是很整齊的,不是特別亂,我們隻做一些簡單的操作即可。
先使用pandas庫,來讀取數據。
import pandas as pd df = pd.read_excel("粽子.xlsx",index_col=False) df.head()
結果如下:
我們分別針對 “品牌”、“類別” 兩個字段,去掉中括號。
df["品牌"] = df["品牌"].apply(lambda x: x[1:-1]) df["類別"] = df["類別"].apply(lambda x: x[1:-1]) df.head()
結果如下:
① 粽子品牌排名前10的店鋪
df["品牌"].value_counts()[:10]
結果如下:
② 粽子口味排名前5的味道
def func1(x): if x.find("甜") > 0: return "甜粽子" else: return x df["類別"] = df["類別"].apply(func1) df["類別"].value_counts()[1:6]
結果如下:
③ 粽子售賣價格區間劃分
def price_range(x): # 按照我的購物習慣,劃分價格 if x <= 50: return '<50元' elif x <= 100: return '50-100元' elif x <= 300: return '100-300元' elif x <= 500: return '300-500元' elif x <= 1000: return '500-1000元' else: return '>1000元' df["價格區間"] = df["價格"].apply(price_range) df["價格區間"].value_counts()
結果如下:
由於數據不是很多,沒有很多字段,也就沒有很多亂數據。因此,這裡也沒有做數據去重、缺失值填充等操作。所以,大傢可以下去獲取更多字段,更多數據,用於數據分析。
四、數據可視化
俗話說:字不如表,表不如圖。通過可視化分析,我們可以將數據背後 “隱藏” 的信息,給展現出來。
拓展: 當然,這裡隻是 “拋磚引玉”,我並沒有獲取太多的數據,也沒有獲取太多的字段。這裡給學習的朋友當一個作業題,自己下去用更多的數據、更多的字段,做更透徹的分析。
在這裡,我們基於以下幾個問題,做一個可視化展示,分別是:
- ① 粽子銷售店鋪Top10柱形圖;
- ② 粽子口味排名Top5柱形圖;
- ③ 粽子銷售價格區間劃分餅圖;
- ④ 粽子商品名稱詞雲圖;
① 粽子銷售店鋪Top10柱形圖
結論分析:去年,我們分析瞭一些月餅的數據,“五芳齋”、“北京稻香村” 這幾個牌子記憶猶新,可謂是做月餅、粽子的老店。像 “三全” 和 “思念”,在我印象中一直以為它們隻做水餃和湯圓,粽子是否值得一試呢?當然,這裡還有一些新的牌子,像 “諸老大”、“稻香私房” 等一些牌子,大傢都可以下去搜索一下。買東西,就是要精挑細選,品牌也重要。
② 粽子口味排名Top5柱形圖
結論分析:在我印象中,小時候一直吃的最多的就是 “甜粽子”,直到我上瞭初中才知道,粽子還可以有肉?當然,從圖中可以看出,賣 “鮮肉粽” 的店鋪還是居多,畢竟這個送人,還是顯得高端、大氣一些。這裡還有一些口味,像 “蜜棗粽”、“豆沙粽”,我基本沒吃過。如果你送人,你會送什麼口味的呢?
③ 粽子銷售價格區間劃分餅圖
結論分析:這裡,我故意把價格區間細分。這個餅圖也很符合實際,畢竟每年就過一次端午節,還是以薄利多銷為主,接近80%的粽子,售價都在100元以下。當然,還有一些中檔的粽子,價格在100-300元。大於300元,我覺得也沒有吃的必要,反正我是不會花這麼多錢去買粽子。
④ 粽子商品名稱詞雲圖
結論分析:從圖中,可以大致看出商傢的賣點瞭。畢竟是節日,“送禮”、“禮品” 體現瞭節日氛圍。“豬肉”、“豆沙” 體現瞭粽子口味。當然,它是否是 “早餐” 好選擇呢?購買的話,還支持 “團購” 哦。這些字眼,多多少少都會各自吸引一部分人的眼球。
⑤ 圖形組合為大屏
到此這篇關於端午節將至,用Python將粽子數據可視化,看看網友喜歡哪種吧!的文章就介紹到這瞭,更多相關Python數據可視化內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!