CentOS7下编译安装tesseract-ocr流程

什么是tesseract-ocr OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。 Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化
什么是tesseract-ocr
 
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。
 
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。
 
现在托管在GitHub中~
 
源代码位置
 
托管于 http://code.google.com/p/tesseract-ocr/ 
目前项目转移到GitHub https://github.com/tesseract-ocr

首先要安装依赖包leptonica
 
官网地址: http://www.leptonica.org/download.html
 
 wget http://www.leptonica.org/source/leptonica-1.72.tar.gz
 tar xvzf leptonica-1.72.tar.gz
 cd leptonica-1.72/
 ./configure
  make && make install

安装tesseract
 
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip 3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig

下载安装英文,中文繁体,中文简体 识别库。
 
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata 
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata
                      
cp/mv *.traineddata /usr/local/share/tessdata/

配置文件位置
 
/usr/local/share/tessdata
 
 
准备测试图片,上传到测试服务器
 
验证
 
tesseract /root/code.jpg out
 
查看结果
 
cat out.txt

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

7-Zip是一款号称有着现今最高压缩比的压缩软件,它不仅支持独有的7z文件格式,而且还支持各种其它压缩文件格式,其中包括ZIP, RAR, CAB, GZIP, BZIP2和TAR。此软件压缩的压缩比要比普通ZIP文件高30-50%。因此,它可以把经WinZip压缩的文件再压缩2-10%。文件
随着智能手机的普及,越来越多的人使用手机上网,很多网站也应手机上网的需要推出了网站客户端,.apk文件就是安卓(Android)的应用程序后缀名,默认情况下,使用IIS作为Web服务器的无法下载此文件,那么怎么才能让IIS支持.apk文件的下载呢? IIS服务器不能下
报错内容如下: [root@localhost win]# java -jar /opt/jodconverter2/lib/jodconverter-cli-2.2.2.jar /tmp/win/3.doc /tmp/win/3.pdf2013-7-31 17:24:01 com.artofsolving.jodconverter.openoffice.connection.AbstractOpenOfficeConnection connect信息: c
apache web服务器的站点,下载pptx,docx,xlsx文件,却被浏览器当作zip文件保存。 这不是浏览器的问题,而是apache不认docx,pptx,,xlsx等Microsoft Office 2007+的文件格式,而这些文件本身是zip压缩文件,所以被apache当作zip压缩文件发给浏览器了。 做个形
一、启动步骤: 1.cd /opt/openoffice4/program (安装路径) 2.运行命令 soffice -headless -accept=socket,host=127.0.0.1,port=8100;urp; -nofirststartwizard 或者1 2合并为以下这一个命令来启动: 启动命令 /opt/openoffice4/program/soffice -headless
本地wamp下调试url重写,加入htaccess文件后提示:500 Internal Server Error ...,而删除这个文件网站又可以正常访问。 百度了一下,都讲了一大通废话,其实就是没有开启url重写的功能。开启一下就可以。 WAMP下htaccess出错的解决方法: 1. 打开wamp安装目