Java使用Tess4J實現圖像識別方式

Posted on 2021-10-30 by WalkonNet

Java Tess4J實現圖像識別

最近需要用Java做一個圖像識別的東西，查瞭一些資料，在此寫一個基於Tess4J的教程，方便其他人參考和使用。

其實做圖像識別，也可以使用TESSERACT-OCR來實現，但是該方式需要下載軟件，在電腦上安裝環境，移植性不高，使用Tess4J隻需要下載相關Jar包，導入項目，再把項目封裝好就可以處處運行瞭。

首先，下載Tess4J的相關資源（一個壓縮包）

官網：http://tess4j.sourceforge.net/codesample.html

解壓，其中的目錄結構如下：

需要用到其中圈起來的三個文件夾中的東西。lib文件夾下放的是需要用到的Jar包，tessdata下放的是語言庫，默認的有英語庫，中文庫需要另外下載，下載地址：https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata。

新建一個Java項目，將lib文件夾和tessdata文件夾復制到項目的根目錄下，找到dist文件夾下的tess4j.jar(名字可能有版本號)，將該文件也復制到項目根目錄下的lib文件夾下。

項目的的目錄如下

lib中的文件如下（tess4J.jar也在該目錄下）

再在eclipse中打開項目

在項目中導入lib文件夾中所有的jar包（Build path –> configure build path）,導入後的結果如下：

這樣前期準備工作就完成瞭，下面就剩下代碼瞭。

Tess4J的代碼比較簡潔

如下：

Tess4JTest.java

package ocr; 
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import net.sourceforge.tess4j.util.LoadLibs; 
import java.io.File;
import java.io.IOException;
 
/**
 * Tess4J測試類
 */
public class Tess4JTest { 
    public static void main(String[] args){ 
    	String path = "D://Java//Tess4J";//我的項目存放路徑    	
    	File file = new File(path + "//photo.jpg");
        ITesseract instance = new Tesseract();
 
        /**
         *  獲取項目根路徑，例如： D:\IDEAWorkSpace\tess4J
         */
        File directory = new File(path);
        String courseFile = null;
        try {
            courseFile = directory.getCanonicalPath();
        } catch (IOException e) {
            e.printStackTrace();
        }
 
        //設置訓練庫的位置
        instance.setDatapath(courseFile + "//tessdata"); 
        instance.setLanguage("eng");//chi_sim ：簡體中文， eng	根據需求選擇語言庫
        String result = null;
        try {
            long startTime = System.currentTimeMillis();
             result =  instance.doOCR(file);
            long endTime = System.currentTimeMillis();
            System.out.println("Time is：" + (endTime - startTime) + " 毫秒");
        } catch (TesseractException e) {
            e.printStackTrace();
        }
        
        System.out.println("result: ");
        System.out.println(result);
    } 
}

這樣就搞定瞭。

效果如下

原圖：

讀取結果：

從結果來看準確率還有待提高，l 和 1分不清，0 和 O 也沒有分清，漢字的準確率還要低一些，大傢可以自行訓練字體庫優化。

以上為個人經驗，希望能給大傢一個參考，也希望大傢多多支持WalkonNet。

Java使用Tess4J實現圖像識別方式

目錄

Java Tess4J實現圖像識別

首先，下載Tess4J的相關資源（一個壓縮包）

項目的的目錄如下

lib中的文件如下（tess4J.jar也在該目錄下）

再在eclipse中打開項目

Tess4J的代碼比較簡潔

效果如下

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

Java Tess4J實現圖像識別

首先，下載Tess4J的相關資源（一個壓縮包）

項目的的目錄如下

lib中的文件如下（tess4J.jar也在該目錄下）

再在eclipse中打開項目

Tess4J的代碼比較簡潔

效果如下

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆