Python 讀取 Word 文檔操作
前言
Word
文檔 (.docx
) 是另一種主要用於存儲文本的常見文檔。它們通常由 Microsoft Office
創建和編輯,但也可以使用其他工具生成兼容文件。它們通常是共享可編輯文件的最常見格式,同時在分發文檔時也非常常見。
Python 讀取 Word 文檔
安裝 python-docx庫
在本節中,我們將學習如何使用 Python
從 Word
文檔中提取文本信息。我們主要使用 python-docx
庫來讀取和處理 Word
文檔,其安裝方法與其它第三方庫完全相同:
$ pip install python-docx
首先,導入 python-docx
庫:
>>> import docx
打開 document_1.docx
文件:
>>> doc = docx.Document('document_1.docx')
檢查存儲在 core_properties
中的元數據屬性,需要訪問 core_properties
屬性。這些屬性是為 Word
定義的文檔元數據屬性,例如作者或創建日期。但並非所有文檔都具有這些元數據信息,因為許多生成 Word
文檔的工具不一定會填充這些屬性:
>>> doc.core_properties.title 'Research Overview of Adversarial Attacks and Defenses on Graphs' >>> doc.core_properties.keywords 'Abstract' >>> doc.core_properties.modified datetime.datetime(2020, 8, 1, 3, 11)
Word
文檔中最重要的特點是數據以段落(而不是頁)的形式結構化。字體大小、段落縮進和其他因素都可能會使頁數發生變化。檢查段落數:
>>> len(doc.paragraphs) 28
瀏覽段落以檢測包含文本的段落,大多數段落通常是空的,或者隻包含換行符、制表符或其他空白字符,檢查段落時我們通常跳過這些空段落:
>>> for index, paragraph in enumerate(doc.paragraphs): ... if paragraph.text: ... print(index, paragraph.text)= ... 0 圖對抗攻防綜述 1 摘 要: 3 關鍵字: 5 Research Overview of Adversarial Attacks and Defenses on Graphs 6 Abstract 7 Deep neural networks (DNNs) have been widely applied to various applications, including image classification, ... 8 ... ... 27 參考文獻
可以利用 paragraphs
屬性獲取文檔段落列表並提取原始格式的文本,這些文本不包括樣式信息,通常是自動處理數據時最常用的屬性。獲取第 5
段和第 6
段的文本,分別對應第一頁的標題和副標題:
>>> doc.paragraphs[5].text 'Research Overview of Adversarial Attacks and Defenses on Graphs' >>> doc.paragraphs[6].text 'Abstract '
每個段落都有一個 runs
屬性,這是具有不同樣式屬性的文本分割列表。檢查不同文本段落是否為粗體或斜體:
>>> doc.paragraphs[5].runs[0].bold True >>> doc.paragraphs[5].runs[0].italic >>> doc.paragraphs[6].runs[0].bold >>> doc.paragraphs[6].runs[0].italic True
在示例 Word
文檔中,大多數段落隻有一個 run
(即每個段落使用相同的樣式),但我們在第 7
段中文本具有許多不同的樣式。例如,Deep neural networks
使用粗體樣式,DNNs
使用斜體樣式:
>>> run_0 = doc.paragraphs[7].runs[0] >>> run_0.text 'Deep neural networks' >>> run_0.bold True >>> run_13 = doc.paragraphs[7].runs[13] >>> run_13.text 'DNNs' >>> run_13.italic True
到此這篇關於Python 讀取 Word 文檔操作的文章就介紹到這瞭,更多相關Python 讀取 Word 文檔內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Python快速優雅的批量修改Word文檔樣式
- 詳解python-docx處理Word必備工具
- Python docx庫刪除復制paragraph及行高設置圖片插入示例
- Python操作word文檔的示例詳解
- Python辦公自動化解決world文件批量轉換