Python爬取百度春節祝福語並生成心形詞雲
前言
最近剛好在看爬蟲,就爬取一下春節祝福語,生成個詞雲玩一玩,大傢有興趣可以試試,會奉上源代碼,很簡單。效果圖如下:
環境
環境:windows,
語言:python,python版本是3.7
所依賴的第三方包:
selenium—-爬取網站,收集祝福語,這個庫做UI自動化測試的估計會比較常見,我這裡沒采用使用requests庫去爬取,用這個庫的好處是爬取的過程中頁面是實時可見的
wordcloud—用來生成詞雲
PIL—使詞雲生成想要的輪廓, 這裡註意python3.7安裝的時候應該使用pip install pillow
numpy—生成那種有輪廓的詞雲,還需要安裝這個包,這個包將給出形狀的圖片表示為一個大型矩陣
jieba—詞雲生成的詞默認是英文,因我們爬取的祝福語是中文,需要用這個庫能識別中文,防止中文亂碼
思路
(1)我爬取百度,搜索到關於春節祝福語,然後把這些祝福語存放到一個文件中。詳細如下:
這裡用到瞭selenium的webdriver, 使用的瀏覽器是firefox, 創建瞭一個firefox瀏覽器對象,然後firefox打開百度,定位到百度輸入框,輸入搜索詞–新春祝福2022,瀏覽器頁面顯示如下
在這個頁面,我模擬人工點擊這第一個搜索出來的結果,跳到其他網址頁面,如圖
把這個頁面的所有祝福語獲取到,存到wishes.txt文件中
(2)然後用生成詞雲的相關庫,來解析這個文件,生成詞雲 這裡註意一點的是,生成詞雲使用的中文字體, font_path使用的是windows的字體庫,這裡你可以換成其他的字體
word_cloud = WordCloud(mask=mask, font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)
windows 字體庫
源代碼
註
可以修改背景顏色和字題顏色,例如
word_cloud = WordCloud(mask=mask, background_color='white', contour_color='red', colormap='brg', max_words=600, font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)
重新運行之後,如圖
支持的colormap字體顏色集,可參考以下鏈接
到此這篇關於Python爬取百度春節祝福語並生成心形詞雲的文章就介紹到這瞭,更多相關Python爬取祝福語內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Python詞雲的正確實現方法實例
- Python將QQ聊天記錄生成詞雲的示例代碼
- Python爬取你好李煥英豆瓣短評生成詞雲的示例代碼
- python 爬取豆瓣電影短評並利用wordcloud生成詞雲圖
- python詞雲庫wordcloud自定義詞雲制作步驟分享