python jieba庫的基本使用
一、jieba庫概述
jieba是優秀的中文分詞第三方庫
- 中文文本需要通過分詞獲得單個的詞語
- jieba是優秀的中文分詞第三方庫,需要額外安裝
- jieba庫提供三種分詞模式,最簡單隻需要掌握一個函數
二、jieba庫安裝
pip install jieba
三、jieba分詞的原理
jieba分詞依靠中文詞庫
- 利用一個中文詞庫,確定漢字之間的關聯概率
- 漢字間概率大的組成詞組,形成分詞結果
四、jieba分詞的3種模式
- 精確模式:把文本精確地切分開,不存在冗餘單詞(最常用)
- 全模式:把文本中所有可能的詞語都掃描出來,有冗餘
- 搜索引擎模式:在精確模式的基礎上,對長詞再次切分
五、jieba庫常用函數
函數 | 描述 |
---|---|
jieba.lcut(s) | 精確模式,返回一個列表類型的分詞結果 |
jieba.lcut(s,cut_all=True) | 全模式,返回一個列表類型的分詞結果,存在冗餘 |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一個列表類型的分詞結果,存在冗餘 |
jieba.lcut(s) | 精確模式,返回一個列表類型的分詞結果 |
jieba.add_word(s) | 向分詞詞典增加新詞w |
例子:
>>> jieba.lcut("中國是一個偉大的國傢") ['中國', '是', '一個', '偉大', '的', '國傢'] >>> jieba.lcut("中國是一個偉大的國傢", cut_all=True) ['中國', '國是', '一個', '偉大', '的', '國傢'] >>> jieba.lcut_for_search("中華人民共和國是偉大的") ['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']
六、文本詞頻示例
問題分析
- 英文文本: Hamlet 分析詞頻
https://python123.io/resources/pye/hamlet.txt
- 中文文本: 《三國演義》 分析人物
https://python123.io/resources/pye/threekingdoms.txt
代碼如下:
def getText(): # 打開 hamlet.txt 這個文件 txt = open("hamlet.txt", "r").read() # 避免大小寫對詞頻統計的幹擾,將所有單詞轉換為小寫 txt = txt.lower() # 將文中出現的所有特殊字符替換為空格 for ch in '|"#$%^&*()_+-=\\`~{}[];:<>?/': txt = txt.replace(ch, " ") # 返回一個所以後單詞都是小寫的,單詞間以空格間隔的文本 return txt hamletTxt = getText() # split() 默認使用空格作為分隔符 words = hamletTxt.split() counts = {} for word in words: counts[word] = counts.get(word,0) + 1 items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(10): word, count = items[i] print("{0:<10}{1:>5}".format(word,count))
上面代碼中的
items.sort(key=lambda x:x[1], reverse=True)
是根據單詞出現的次數進行排序,其中使用瞭 lambda 函數。更多解釋請看:
https://www.runoob.com/python/att-list-sort.html
下面使用 jieba 庫來統計《三國演義》中任務出場的次數:
import jieba txt = open("threekingdoms.txt","r",encoding="utf-8").read() words = jieba.lcut(txt) counts = {} for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word, 0) + 1 items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(15): word, count = items[i] print("{0:<10}{1:>5}".format(word,count))
運行結果:
曹操 953 孔明 836 將軍 772 卻說 656 玄德 585 關公 510 丞相 491 二人 469 不可 440 荊州 425 玄德曰 390 孔明曰 390 不能 384 如此 378 張飛 358
我們可以看到得出的結果與我們想象的有些差異,比如
- “卻說”、“二人”等與人名無關
- “諸葛亮”、“孔明”都是同一個人
- “孔明”和“孔明曰”分詞不符合我們的需求
所以我們需要對上面代碼進行優化,在詞頻統計的基礎上,面向問題改造我們的程序。
下面是《三國演義》人物數量統計代碼的升級版,升級版中對於某些確定不是人名的詞,即使做瞭詞頻統計,也要將它刪除掉。使用寄一個集合excludes來接收一些確定不是人名但是又排序比較靠前的單詞列進去。
import jieba txt = open("threekingdoms.txt","r",encoding="utf-8").read() excludes = {"將軍","卻說","荊州","二人","不可","不能","如此"} words = jieba.lcut(txt) counts = {} for word in words: if len(word) == 1: continue elif word == "諸葛亮" or word == "孔明曰": rword == "孔明" elif word == "關公" or word == "雲長": rword == "關羽" elif word == "玄德" or word == "玄德曰": rword == "劉備" elif word == "孟德" or word == "丞相": rword == "曹操" else: rword = word counts[rword] = counts.get(rword, 0) + 1 items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(15): word, count = items[i] print("{0:<10}{1:>5}".format(word,count))
運行結果:
曹操 963 孔明 847 張飛 366 商議 359 如何 352 主公 340 軍士 320 呂佈 303 左右 298 軍馬 297 趙雲 283 劉備 282 引兵 279 次日 278 大喜 274
可以看出還是有像“商議”、“如何”等不是人物的詞出現在統計結果,我們將這些詞加入到 excludes 中,多次運行程序後最後得到《三國演義》任務出場順序前20:
七、文本詞頻統計問題舉一反三
應用問題擴展
- 《紅樓夢》、《西遊記》、《水滸傳》…等名著都可以統計它的任務出場次數
- 政府工作報告、科研論文、新聞報道…中出現的大量的詞頻進行分析,進而找到每篇文章的重點內容
- 進一步,對文本的詞語或詞匯繪制成詞雲,使其展示的效果更加直觀
以上內容資料均來源於中國大學MOOC網-北京理工大學Python語言程序設計課程
課程地址:https://www.icourse163.org/course/BIT-268001
以上就是python jieba庫的基本使用的詳細內容,更多關於python jieba庫的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- Python中jieba庫的使用方法
- python中文分詞+詞頻統計的實現步驟
- Python jieba庫分詞模式實例用法
- python實現餘弦相似度文本比較的示例
- Python jieba 中文分詞與詞頻統計的操作