Python提取PDF中的圖片的實現示例

Posted on 2022-07-20 by WalkonNet

1.導入相關庫

import fitz
import time
import re
import os

2.具體實現

為瞭方便和其他模塊組合，我直接寫瞭個函數完成這個功能，實現如下：

2.1.使用正則表達式查找PDF中的圖片

def pdf2pic(path, pic_path):
    '''
    # 從pdf中提取圖片
    :param path: pdf的路徑
    :param pic_path: 圖片保存的路徑
    :return:
    '''
    t0 = time.clock()
    # 使用正則表達式來查找圖片
    checkXO = r"/Type(?= */XObject)" 
    checkIM = r"/Subtype(?= */Image)"

2.2.打印PDF的相關信息

    # 打開pdf
    doc = fitz.open(path)
    # 圖片計數
    imgcount = 0
    lenXREF = doc._getXrefLength()
 
    # 打印PDF的信息
    print("文件名:{}, 頁數: {}, 對象: {}".format(path, len(doc), lenXREF - 1))

2.3.遍歷PDF中的對象，遇到是圖像才進行下一步，不然就continue

並且我們將文件的名字命名為word所在的路徑

    # 遍歷每一個對象
    for i in range(1, lenXREF):
        # 定義對象字符串
        text = doc.getObjectString(i)
        isXObject = re.search(checkXO, text)
        # 使用正則表達式查看是否是圖片
        isImage = re.search(checkIM, text)
        # 如果不是對象也不是圖片，則continue
        if not isXObject or not isImage:
            continue
        imgcount += 1
        # 根據索引生成圖像
        pix = fitz.Pixmap(doc, i)
        # 根據pdf的路徑生成圖片的名稱
        new_name = path.replace('\\', '_') + "_img{}.png".format(imgcount)
        new_name = new_name.replace(':', '')

2.4.將圖像存為png格式

        # 如果pix.n<5,可以直接存為PNG
        if pix.n < 5:
            pix.writePNG(os.path.join(pic_path, new_name))
        # 否則先轉換CMYK
        else:
            pix0 = fitz.Pixmap(fitz.csRGB, pix)
            pix0.writePNG(os.path.join(pic_path, new_name))
            pix0 = None
        # 釋放資源
        pix = None
        t1 = time.clock()
        print("運行時間:{}s".format(t1 - t0))
        print("提取瞭{}張圖片".format(imgcount))

2.5.輸入pdf路徑，即可運行

if __name__=='__main__':
    # pdf路徑
    path = r'E:\dogcat\提取圖片\計算機視覺算法工程師.pdf'
    pic_path = r'E:\dogcat\提取圖片\測試'
    # 創建保存圖片的文件夾
    if os.path.exists(pic_path):
        print("文件夾已存在，請重新創建新文件夾！")
        raise SystemExit
    else:
        os.mkdir(pic_path)
    m = pdf2pic(path, pic_path)

3.結果預覽

3.1.程序結果

3.2.原本的pdf

3.3.提取出來的圖片

到此這篇關於Python提取PDF中的圖片的實現示例的文章就介紹到這瞭,更多相關Python提取PDF圖片內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python提取PDF中的圖片的實現示例

目錄

1.導入相關庫

2.具體實現

2.1.使用正則表達式查找PDF中的圖片

2.2.打印PDF的相關信息

2.3.遍歷PDF中的對象，遇到是圖像才進行下一步，不然就continue

2.4.將圖像存為png格式

2.5.輸入pdf路徑，即可運行

3.結果預覽

3.1.程序結果

3.2.原本的pdf

3.3.提取出來的圖片

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

1.導入相關庫

2.具體實現

2.1.使用正則表達式查找PDF中的圖片

2.2.打印PDF的相關信息

2.3.遍歷PDF中的對象，遇到是圖像才進行下一步，不然就continue

2.4.將圖像存為png格式

2.5.輸入pdf路徑，即可運行

3.結果預覽

3.1.程序結果

3.2.原本的pdf

3.3.提取出來的圖片

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆