Python制作個性化的詞雲圖實例講解

1. 引言

詞雲圖可以讓我們方便地識別出文本中的關鍵詞,其中單詞的大小代表它們的頻率。有瞭這個,我們甚至在閱讀之前就可以很好地瞭解文本的內容。雖然有很多免費的工具可以在線制作文字雲,但我們可以使用萬能的Python來定制個性化的詞雲圖。

在本文中,我們將使用第三方Python庫stylecloud,有瞭該庫,可以通過簡短的幾行代碼來制作漂亮的詞雲圖。如下所示:

在這裡插入圖片描述

閑話少說,我們直接開始吧。 :)

2. 舉個栗子

接下來,我們將用來制作詞雲圖的文本是偶像喬佈斯在斯坦福大學演講的一部分。點擊這裡可以獲得對應的 .txt 文件或使用任何其他的文本來制作你自己的詞雲圖。

2.1 安裝stylecloud庫

這裡我們可以直接使用pip來安裝該詞雲庫,代碼如下:

pip3 install stylecloud

2.2 生成詞雲圖

接著我們可以使用stylecloud.gen_stylecloud() 方法來生成詞雲圖,通過傳遞相應的文本 .txt 文件的路徑和生成詞雲的圖標樣式。
在網站上,我們可以方便的找到可用於 stylecloud 的圖標樣式列表。在此示例中,我選擇瞭一個蘋果作為圖標。代碼如下:

import stylecloud
stylecloud.gen_stylecloud(file_path='SJ-Speech.txt',
						icon_name="fas fa-apple-alt")

上述代碼運行後,在當前python文件目錄下生成以png格式保存詞雲圖,如下所示:

在這裡插入圖片描述

2.3 美化顯示效果

仔細觀察gen_stylecloud函數的相關參數,我們可以控制背景顏色、單詞的顏色、輸出文件的名稱等。為此,我們查看下面的代碼:

stylecloud.gen_stylecloud(file_path='SJ-Speech.txt',
                          icon_name='fas fa-apple-alt',
                          colors='white',
                          background_color='black',
                          output_name='apple.png',
                          collocations=False)

運行結果如下:

在這裡插入圖片描述

2.4 處理停用詞

我們可以使用stop_words庫來處理文本中的停用詞,可以使用pip install stop_words來安裝該庫。有瞭停用詞列表,我們也可以將其傳遞給在gen_stylecloud函數中的custom_stopwords參數。

樣例代碼如下:

from stop_words import get_stop_words
stop_words = get_stop_words('english')
stylecloud.gen_stylecloud(file_path='SJ-Speech.txt',
                          icon_name='fas fa-apple-alt',
                         palette='cartocolors.qualitative.Pastel_3',
                          background_color='black',
                          output_name='apple.png',
                          collocations=False,
                          custom_stopwords=stop_words)

上述代碼的運行結果如下:

在這裡插入圖片描述

2.5 使用自定義背景圖像

在上述網站上有數百個免費圖標可用於 stylecloud,但是但有時我們可能希望使用自己的圖像來為創建更加個性化的詞雲圖。此時,我們可以使用PIL庫來讀取圖像,使用matplotlib來繪制我們的圖像,使用wordcloud來制作對應的詞雲圖。

下述代碼中使用蝙蝠的圖案來生成對應的詞雲圖,代碼如下:

from wordcloud import WordCloud, ImageColorGenerator
from PIL import Image
import matplotlib.pyplot as plt
import numpy as np
# create a mask based on the image we wish to include
my_mask = np.array(Image.open('batman-logo.png'))
# create a wordcloud
wc = WordCloud(background_color='white',
                   mask=my_mask,
                   collocations=False,
                   width=600,
                   height=300,
                   contour_width=3,
                   contour_color='black',
                   stopwords=stop_words)

with open('SJ-Speech.txt',encoding='gb18030',errors='ignore') as txt_file:
	texto = txt_file.read()
wc.generate(texto)
image_colors = ImageColorGenerator(my_mask)
wc.recolor(color_func=image_colors)

plt.figure(figsize=(20, 10))
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
wc.to_file('wordcloud2.png')
plt.show()

運行結果如下:

在這裡插入圖片描述

3. 總結

本文詳細介紹瞭如何使用stylecloud庫來繪制各種樣式的詞雲圖,以突出顯示文本中相應的關鍵詞,並給出瞭定制化改進顯示效果的樣例代碼。

到此這篇關於Python制作個性化的詞雲圖實例講解的文章就介紹到這瞭,更多相關Python詞雲圖內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: