解決PDF 轉圖片時丟文字的一種可能方式

問題

Python 中 PDF 轉圖片一般用的是 pdf2image。有時我們會發現 PDF 轉出來的圖片都是空白,或者缺失瞭一些字,具體表現就是一些應該有字的區域是空白。

由於某些原因我不能把出現問題的文件放上來,不過大致就是這個情況。

主要的代碼如下:

images = pdf2image.convert_from_path('/path/to/pdf', output_folder='images/', fmt='jpg')

運行時可能會發現代碼沒有任何異常,但是結果不對。

分析和解決

其實 pdf2image 底層默認使用的是 pdftoppm 來轉圖片,我們可以直接使用其來測試有問題的 PDF,會發現輸出瞭一些警告:

除 pdftoppm 外,pdf2image 在兩種情況下會使用 pdftocairo 來轉圖片,具體是:

當要轉成 tif/tiff 格式時

當 transparent=True(默認為 False)且要轉成 png/tif/tiff 時

Missing language pack for 'Adobe-GB1' mapping

很明顯是缺失瞭語言包。

而且字缺失,自然而然想到的是字體缺失,即系統中沒有 PDF 中的字體。

我們需要找到對應的字體,然後安裝上。

一般來說,Linux 系統中,直接復制相應的字體文件到 /usr/share/fonts/ 目錄下即可,可以使用 fc-list :lang=zh-cn 來查看當前系統有哪些中文字體。

對於中文來說,Noto CJK 字體可以覆蓋所有的字,可以嘗試下載安裝此字體,有些系統可能自帶。

有瞭字體,你再試的時候可能會發現還是不行,因為你還需要另一個東西:poppler-data。

這個東西是幹嘛用的?根據作者的描述:

This package consists of encoding files for use with poppler. The encoding files are optional and poppler will automatically read them if they are present. When installed, the encoding files enables poppler to correctly render CJK and Cyrrilic properly. While poppler is licensed under the GPL, these encoding files have different license, and thus distributed separately.

大致就是這個包裡是一些編碼文件,可以讓 poppler 正確渲染 CJK 文字。

我們可以通過 apt 來安裝:

sudo apt install poppler-data

然後再次嘗試,應該就可以成功轉成正常的圖片瞭。

總結一下,你需要兩個東西:

正確的字體文件

poppler-data

Reference

以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。

推薦閱讀: