CentOS7下编译安装tesseract-ocr流程

2018-04-19 服务器跟版网

什么是tesseract-ocr OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别，获取的过程。 Tesseract：开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后经由Google进行改进，消除bug，优化

什么是tesseract-ocr

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别，获取的过程。

Tesseract：开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后经由Google进行改进，消除bug，优化，重新发布。

现在托管在GitHub中~

源代码位置

托管于 http://code.google.com/p/tesseract-ocr/

目前项目转移到GitHub https://github.com/tesseract-ocr

首先要安装依赖包leptonica

官网地址： http://www.leptonica.org/download.html

 wget http://www.leptonica.org/source/leptonica-1.72.tar.gz
 tar xvzf leptonica-1.72.tar.gz
 cd leptonica-1.72/
 ./configure
  make && make install

安装tesseract

wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip 3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig

下载安装英文，中文繁体，中文简体识别库。

wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata 
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata
                      
cp/mv *.traineddata /usr/local/share/tessdata/

配置文件位置

/usr/local/share/tessdata

准备测试图片，上传到测试服务器

验证

tesseract /root/code.jpg out

查看结果

cat out.txt

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除！

CentOS

上一篇：JRE的安装及环境变量配置下一篇：分享几个免费IP地址查询接口(API)

相关文档推荐

网站服务器不支持.7z文件下载的解决方法

7-Zip是一款号称有着现今最高压缩比的压缩软件，它不仅支持独有的7z文件格式，而且还支持各种其它压缩文件格式，其中包括ZIP, RAR, CAB, GZIP, BZIP2和TAR。此软件压缩的压缩比要比普通ZIP文件高30-50%。因此，它可以把经WinZip压缩的文件再压缩2-10%。文件

怎么让服务器iis6-7支持.apk文件下载

随着智能手机的普及，越来越多的人使用手机上网，很多网站也应手机上网的需要推出了网站客户端，.apk文件就是安卓(Android)的应用程序后缀名，默认情况下，使用IIS作为Web服务器的无法下载此文件，那么怎么才能让IIS支持.apk文件的下载呢？ IIS服务器不能下

Linux 下openoffice+jodconverter转换doc为pdf报错

报错内容如下： [root@localhost win]# java -jar /opt/jodconverter2/lib/jodconverter-cli-2.2.2.jar /tmp/win/3.doc /tmp/win/3.pdf2013-7-31 17:24:01 com.artofsolving.jodconverter.openoffice.connection.AbstractOpenOfficeConnection connect信息: c

apache下载docx,pptx文件被浏览器当作zip文件保存：修改apache MIME类型配置mime.types

apache web服务器的站点，下载pptx,docx,xlsx文件，却被浏览器当作zip文件保存。这不是浏览器的问题，而是apache不认docx,pptx,,xlsx等Microsoft Office 2007+的文件格式，而这些文件本身是zip压缩文件，所以被apache当作zip压缩文件发给浏览器了。做个形

linux下openoffice启动和自动启动设置（centos）

一、启动步骤： 1.cd /opt/openoffice4/program （安装路径） 2.运行命令 soffice -headless -accept=socket,host=127.0.0.1,port=8100;urp; -nofirststartwizard 或者1 2合并为以下这一个命令来启动：启动命令 /opt/openoffice4/program/soffice -headless

本地wamp下htaccess出错提示Internal Server Error的解决方法

本地wamp下调试url重写，加入htaccess文件后提示：500 Internal Server Error ...，而删除这个文件网站又可以正常访问。百度了一下，都讲了一大通废话，其实就是没有开启url重写的功能。开启一下就可以。 WAMP下htaccess出错的解决方法： 1. 打开wamp安装目

栏目导航

html教程 css教程前端开发 cms教程 seo优化网页设计服务器数据库平面设计电脑教程编程教程互联网移动开发 php编程 java编程建站技巧 Python编程

最新文章

热门文章

热门标签

织梦资讯网织梦模板 dede 外语学校织梦鬼故事竞价网站源码竞价培训网门户网站织梦二次开发织梦笑话网 dedecms笑话网织梦源码网站建设搞笑图片织梦教程旅游网站源码织梦旅游网学校培训 html5 企业织梦源码医院源码后台样式移动营销页整形医院大学医院新手建站客服代码洗衣机维修企业网站淘宝客导航菜单教育网站学校源码装修网站装修模板美容整形女性健康妈妈网机械源码建站公司珠宝首饰苹果网站手机资讯美女图片织梦模版打包妇科源码安卓市场源码男性时尚网健康之家 app应用网站笑话网站下载站美女图片网中医院网站家装网站源码 QQ网站标牌网站魔兽世界网淘宝客源码 YY网站源码别墅设计网站服装搭配网宝宝起名网站长网站婚庆网站脑科医院源码笑话源码肝胆医院意外怀孕源码工作室