python 共現矩陣的實現代碼

Posted on 2022-07-14 by WalkonNet

python共現矩陣實現

最近在學習python詞庫的可視化，其中有一個依據共現矩陣制作的可視化，感覺十分炫酷，便以此復刻。

項目背景

本人利用爬蟲獲取各大博客網站的文章，在進行jieba分詞，得到每篇文章的關鍵詞，對這些關鍵詞進行共現矩陣的可視化。

什麼是共現矩陣

比如我們有兩句話：

ls = ['我永遠喜歡三上悠亞', '三上悠亞又出新作瞭']

在jieba分詞下我們可以得到如下效果：

我們就可以構建一個以關鍵詞的共現矩陣：

['',    '我', '永遠', '喜歡', '三上', '悠亞', '又', '出', '新作', '瞭']
['我',    0,      1,     1,     1,    1,    0,    0,      0,     0]
['永遠',  1,      0,     1,      1,    1,    0,    0,     0,     0] 
['喜歡'   1,      1,     0,      1,    1,    0,    0,     0,     0]
['三上',  1,      1,     1,      0,    1,    1,    1,     1,     1]
['悠亞',  1,      1,     1,      1,    0,    1,    1,     1,     1]
['又',    0,      0,     0,      1,    1,    0,    1,     1,     1]
['出',    0,      0,     0,      1,    1,    1,    0,     1,     1]
['新作',  0,      0,     0,      1,    1,    1,    1,     0,     1]
['瞭',    0,      0,     0,      1,    1,    1,    1,     1,     0]]

解釋一下，“我永遠喜歡三上悠亞”，這一句話中，“我”和“永遠”共同出現瞭一次，在共現矩陣對應的[ i ] [ j ]和[ j ][ i ]上+1，並依次類推。

基於這個原因，我們可以發現，共現矩陣的特點是：

共現矩陣的[0][0]為空。
共現矩陣的第一行第一列是關鍵詞。
對角線全為0。
共現矩陣其實是一個對稱矩陣。

當然，在實際的操作中，這些關鍵詞是需要經過清洗的，這樣的可視化才幹凈。

共現矩陣的構建思路

每篇文章關鍵詞的二維數組data_array。
所有關鍵詞的集合set_word。
建立關鍵詞長度+1的矩陣matrix。
賦值矩陣的第一行與第一列為關鍵詞。
設置矩陣對角線為0。
遍歷formated_data，讓取出的行關鍵詞和取出的列關鍵詞進行組合，共現則+1。

共現矩陣的代碼實現

# coding:utf-8
import numpy as np
import pandas as pd
import jieba.analyse
import os
# 獲取關鍵詞
def Get_file_keywords(dir):
    data_array = []  # 每篇文章關鍵詞的二維數組
    set_word = []  # 所有關鍵詞的集合
    try:
        fo = open('dic_test.txt', 'w+', encoding='UTF-8')
        # keywords = fo.read()
        for home, dirs, files in os.walk(dir):  # 遍歷文件夾下的每篇文章
            for filename in files:
                fullname = os.path.join(home, filename)
                f = open(fullname, 'r', encoding='UTF-8')
                sentence = f.read()
                words = " ".join(jieba.analyse.extract_tags(sentence=sentence, topK=30, withWeight=False,
                                                            allowPOS=('n')))  # TF-IDF分詞
                words = words.split(' ')
                data_array.append(words)
                for word in words:
                    if word not in set_word:
                        set_word.append(word)
        set_word = list(set(set_word))  # 所有關鍵詞的集合
        return data_array, set_word
    except Exception as reason:
        print('出現錯誤：', reason)
        return data_array, set_word
# 初始化矩陣
def build_matirx(set_word):
    edge = len(set_word) + 1  # 建立矩陣，矩陣的高度和寬度為關鍵詞集合的長度+1
    '''matrix = np.zeros((edge, edge), dtype=str)'''  # 另一種初始化方法
    matrix = [['' for j in range(edge)] for i in range(edge)]  # 初始化矩陣
    matrix[0][1:] = np.array(set_word)
    matrix = list(map(list, zip(*matrix)))
    matrix[0][1:] = np.array(set_word)  # 賦值矩陣的第一行與第一列
    return matrix
# 計算各個關鍵詞的共現次數
def count_matrix(matrix, formated_data):
    for row in range(1, len(matrix)):
        # 遍歷矩陣第一行，跳過下標為0的元素
        for col in range(1, len(matrix)):
            # 遍歷矩陣第一列，跳過下標為0的元素
            # 實際上就是為瞭跳過matrix中下標為[0][0]的元素，因為[0][0]為空，不為關鍵詞
            if matrix[0][row] == matrix[col][0]:
                # 如果取出的行關鍵詞和取出的列關鍵詞相同，則其對應的共現次數為0，即矩陣對角線為0
                matrix[col][row] = str(0)
            else:
                counter = 0  # 初始化計數器
                for ech in formated_data:
                    # 遍歷格式化後的原始數據，讓取出的行關鍵詞和取出的列關鍵詞進行組合，
                    # 再放到每條原始數據中查詢
                    if matrix[0][row] in ech and matrix[col][0] in ech:
                        counter += 1
                    else:
                        continue
                matrix[col][row] = str(counter)
    return matrix
def main():
    formated_data, set_word = Get_file_keywords(r'D:\untitled\test')
    print(set_word)
    print(formated_data)
    matrix = build_matirx(set_word)
    matrix = count_matrix(matrix, formated_data)
    data1 = pd.DataFrame(matrix)
    data1.to_csv('data.csv', index=0, columns=None, encoding='utf_8_sig')
main()

共現矩陣(共詞矩陣)計算

共現矩陣(共詞矩陣)

統計文本中兩兩詞組之間共同出現的次數，以此來描述詞組間的親密度

code(我這裡求的對角線元素為該字段在文本中出現的總次數)：

import pandas as pd
def gx_matrix(vol_li):
    # 整合一下，輸入是df列，輸出直接是矩陣
    names = locals()
    all_col0 = []   # 用來後續求所有字段的集合
    for row in vol_li:
        all_col0 += row
	    for each in row:  # 對每行的元素進行處理，存在該字段字典的話，再進行後續判斷，否則創造該字段字典
	        try:
	            for each1 in row:  # 對已存在字典，循環該行每個元素，存在則在已有次數上加一，第一次出現創建鍵值對“字段：1”
	                try:
	                    names['dic_' + each][each1] = names['dic_' + each][each1] + 1  # 嘗試，一起出現過的話，直接加1
	                except:
	                    names['dic_' + each][each1] = 1  # 沒有的話，第一次加1
	        except:
	            names['dic_' + each] = dict.fromkeys(row, 1)  # 字段首次出現，創造字典
    # 根據生成的計數字典生成矩陣
    all_col = list(set(all_col0))   # 所有的字段（所有動物的集合）
    all_col.sort(reverse=False)  # 給定詞匯列表排序排序，為瞭和生成空矩陣的橫向列名一致
    df_final0 = pd.DataFrame(columns=all_col)  # 生成空矩陣
    for each in all_col:  # 空矩陣中每列，存在給字段字典，轉為一列存入矩陣，否則先創造全為零的字典，再填充進矩陣
        try:
            temp = pd.DataFrame(names['dic_' + each], index=[each])
        except:
            names['dic_' + each] = dict.fromkeys(all_col, 0)
            temp = pd.DataFrame(names['dic_' + each], index=[each])
        df_final0 = pd.concat([df_final0, temp])  # 拼接
    df_final = df_final0.fillna(0)
    return df_final
if __name__ == '__main__':
    temp1 = ['狗', '獅子', '孔雀', '豬']
    temp2 = ['大象', '獅子', '老虎', '豬']
    temp3 = ['大象', '北極熊', '老虎', '豬']
    temp4 = ['大象', '狗', '老虎', '小雞']
    temp5 = ['狐貍', '獅子', '老虎', '豬']
    temp_all = [temp2, temp1, temp3, temp4, temp5]
    vol_li = pd.Series(temp_all)
    df_matrix = gx_matrix(vol_li)
    print(df_matrix)

輸入是整成這個樣子的series

求出每個字段與各字段的出現次數的字典

最後轉為df

補充一點

這裡如果用大象所在列，除以大象出現的次數，比值高的，表明兩者一起出現的次數多，如果這列比值中，有兩個元素a和b的比值均大於0.8(也不一定是0.8啦)，就是均比較高，則說明a和b和大象三個一起出現的次數多！！！

即可以求出文本中經常一起出現的詞組搭配，比如這裡的第二列，大象一共出現3次，與老虎出現3次，與豬出現2次，則可以推導出大象，老虎，豬一起出現的概率較高。

也可以把出現總次數拎出來，放在最後一列，則代碼為：

# 計算每個字段的出現次數，並列為最後一行
    df_final['all_times'] = ''
    for each in df_final0.columns:
        df_final['all_times'].loc[each] = df_final0.loc[each, each]

放在上述代碼df_final = df_final0.fillna(0)的後面即可

結果為

我第一次放代碼上來的時候中間有一塊縮進錯瞭，感謝提出問題的同學的提醒，現在是更正過的代碼！！！

以上為個人經驗，希望能給大傢一個參考，也希望大傢多多支持WalkonNet。

python 共現矩陣的實現代碼

目錄

python共現矩陣實現

項目背景

什麼是共現矩陣

共現矩陣的構建思路

共現矩陣的代碼實現

共現矩陣(共詞矩陣)計算

共現矩陣(共詞矩陣)

補充一點

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

python共現矩陣實現

項目背景

什麼是共現矩陣

共現矩陣的構建思路

共現矩陣的代碼實現

共現矩陣(共詞矩陣)計算

共現矩陣(共詞矩陣)

補充一點

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆