Python爬取百度春節祝福語並生成心形詞雲

前言

最近剛好在看爬蟲,就爬取一下春節祝福語,生成個詞雲玩一玩,大傢有興趣可以試試,會奉上源代碼,很簡單。效果圖如下:

環境

環境:windows,

語言:python,python版本是3.7

所依賴的第三方包:

selenium—-爬取網站,收集祝福語,這個庫做UI自動化測試的估計會比較常見,我這裡沒采用使用requests庫去爬取,用這個庫的好處是爬取的過程中頁面是實時可見的

wordcloud—用來生成詞雲

PIL—使詞雲生成想要的輪廓, 這裡註意python3.7安裝的時候應該使用pip install pillow

numpy—生成那種有輪廓的詞雲,還需要安裝這個包,這個包將給出形狀的圖片表示為一個大型矩陣

jieba—詞雲生成的詞默認是英文,因我們爬取的祝福語是中文,需要用這個庫能識別中文,防止中文亂碼

思路

(1)我爬取百度,搜索到關於春節祝福語,然後把這些祝福語存放到一個文件中。詳細如下:

這裡用到瞭selenium的webdriver, 使用的瀏覽器是firefox, 創建瞭一個firefox瀏覽器對象,然後firefox打開百度,定位到百度輸入框,輸入搜索詞–新春祝福2022,瀏覽器頁面顯示如下

在這個頁面,我模擬人工點擊這第一個搜索出來的結果,跳到其他網址頁面,如圖

把這個頁面的所有祝福語獲取到,存到wishes.txt文件中

(2)然後用生成詞雲的相關庫,來解析這個文件,生成詞雲 這裡註意一點的是,生成詞雲使用的中文字體, font_path使用的是windows的字體庫,這裡你可以換成其他的字體

word_cloud = WordCloud(mask=mask, font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)

windows 字體庫

源代碼

可以修改背景顏色和字題顏色,例如

word_cloud = WordCloud(mask=mask, background_color='white',  contour_color='red', colormap='brg',
                       max_words=600,
                       font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)

重新運行之後,如圖

支持的colormap字體顏色集,可參考以下鏈接 

到此這篇關於Python爬取百度春節祝福語並生成心形詞雲的文章就介紹到這瞭,更多相關Python爬取祝福語內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: