什么是tesseract-ocr
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。
现在托管在GitHub中~
源代码位置
托管于 http://code.google.com/p/tesseract-ocr/
目前项目转移到GitHub https://github.com/tesseract-ocr
首先要安装依赖包leptonica
官网地址: http://www.leptonica.org/download.html
wget http://www.leptonica.org/source/leptonica-1.72.tar.gz tar xvzf leptonica-1.72.tar.gz cd leptonica-1.72/ ./configure make && make install |
安装tesseract
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip unzip 3.04.zip cd tesseract-3.04/ ./configure make && make install sudo ldconfig |
下载安装英文,中文繁体,中文简体 识别库。
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata cp/mv *.traineddata /usr/local/share/tessdata/ |
配置文件位置
/usr/local/share/tessdata
准备测试图片,上传到测试服务器
验证
tesseract /root/code.jpg out |
查看结果
cat out.txt |
本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!