Linux + Java 实现图文识别，图文提取

环境
- Linux
- Java

准备步骤

安装gcc
```
yum install gcc gcc-c++ make
```
安装工具包
```
yum groupinstall "Development Tools"
```

安装解析图片依赖的包

yum -y install libjpeg* libpng* freetype* gd* giflib* libtiff* zlib*

安装 leptonica(也可以在网上自己找包)

wget http://download.wuxo.top/linux/leptonica-1.79.0.tar.gz
tar -zxvf leptonica-1.79.0.tar.gz
cd eptonica-1.79.0
./configure&&make&&make install&&ldconfig

安装 tesseract(也可以在网上自己找包)

wget http://download.wuxo.top/linux/3.04.00.tar.gz
tar -zxvf 3.04.00.tar.gz
cd tesseract-3.04.00
./autogen.sh&&./configure&&make&&make install&&ldconfig

将/usr/local/lib目录下的so文件拷贝到 /usr/lib64/
```
cp /usr/local/lib/*.so.* /usr/lib64/
```
安装中文语言包（需记录文件存放路径）(也可以在网上自己找包)
```
wget http://download.wuxo.top/linux/chi_sim.traineddata
```

核心java代码实现

try {
    ITesseract instance = new Tesseract();
    instance.setDatapath("");//外部中文包的路径,上面记录的路径
    instance.setLanguage("chi_sim");//中文包名
    String result = instance.doOCR(new File(""));//需要识别的图片路径
    //result结果
} catch (Exception e) {
    //操作失败
}

附带Controlle接口写法

/**
 * 返回状态和内容的实体类
 */
@Data
@AllArgsConstructor
@NoArgsConstructor
public class BaseResult {
    private Integer code;   // 0:请求失败   1：请求成功
    private Object data;      //错误的原因或者正确的内容
}

/**
  * 图文提取
  * @param file
  * @return文件识别的结果
 */
@RequestMapping(value = "imgCode",method = RequestMethod.POST)
public BaseResult imgCode(@RequestParam("file") MultipartFile file) {
    BaseResult baseResult = new BaseResult();
    File file1 = null;//创建临时文件
    if (!file.isEmpty()) {//首先判断是不是空的文件
        int begin = file.getOriginalFilename().indexOf(".");//对文文件的全名进行截取然后在后缀名进行删选。
        int last = file.getOriginalFilename().length();
        String a = file.getOriginalFilename().substring(begin, last);//获得文件后缀名
        if (a.endsWith(".jpg") || a.endsWith(".png")) {

            file1 = new File("tessdata/"+ UUID.randomUUID().toString().replaceAll("-","")+a);//临时文件名
            try {
                FileUtils.copyInputStreamToFile(file.getInputStream(), file1);


                ITesseract instance = new Tesseract();
                instance.setDatapath("D:\\Download\\tessdata");//外部中文包的路径
                instance.setLanguage("chi_sim");//中文包名
                String result = instance.doOCR(file1);
                baseResult.setCode(1);
                baseResult.setData(result);

            } catch (Exception e) {
                baseResult.setCode(0);
                baseResult.setData("操作失败"+e.getMessage());
            }


        } else {
            baseResult.setCode(0);
            baseResult.setData("文件格式有误");
        }
    }
    if (file1 != null) {
        file1.delete();//如果临时文件存在，就删除文件
    }
    return baseResult;
}