Python爬虫验证码识别(使用Tesseract OCR识别)

栏目: Python · 发布时间: 6年前

内容简介:主要思路是根据需要识别语言配置(参照比如我这边是4.0版本,我需要的是对英文的ocr识别(识别英文的验证码),我就直接下载4.00版本的

主要思路是根据 教程 使用源码安装完tesseract后,然后通过安装pillow与pytesseract打通 python 进行在python代码中引用使用。

I. 依赖安装

brewinstallautomake autoconf libtool
brewinstallpkgconfig
brewinstallicu4c
brewinstallleptonica
brewinstallgcc

II. Tesseract编译安装

git clone https://github.com/tesseract-ocr/tesseract/
cd tesseract
./autogen.sh
./configure CC=gcc-8 CXX=g++-8 CPPFLAGS=-I/usr/local/opt/icu4c/include LDFLAGS=-L/usr/local/opt/icu4c/lib
make -j
sudo make install  # if desired

III. 语言配置

需要识别语言配置(参照 教程 ):

  1. 前面安装完后,你会发现在 /usr/local/share/tessdata 会有默认的data,将 export TESSDATA_PREFIX='/usr/local/share/tessdata' 配置到系统环境中
  2. 这里 下载对应版本的语言包
  3. 将下载的语言包直接放到这个 /usr/local/share/tessdata

比如我这边是4.0版本,我需要的是对英文的ocr识别(识别英文的验证码),我就直接下载4.00版本的 eng.traineddata :

Python爬虫验证码识别(使用Tesseract OCR识别)

然后再将下载下来的 eng.traineddata 放到到 /usr/local/share/tessdata 中即可:

Python爬虫验证码识别(使用Tesseract OCR识别)

IV. 打通Python

这边打通python直接通过 pytesseract ,十分方便。

先安装pillow:

pip install pillow

再安装pytesseract:

pip install pytesseract

安装完成后就可以通过其在python中使用了,如:

try:
    from PIL import Image
except ImportError:
    import Image
import pytesseract

# Simple image to string
print(pytesseract.image_to_string(Image.open('test.png')))

# French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

更多使用方法参照 官方 的文档。


以上所述就是小编给大家介绍的《Python爬虫验证码识别(使用Tesseract OCR识别)》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

极致:互联网时代的产品设计

极致:互联网时代的产品设计

戴维•罗斯 / 中信出版集团 / 2016-6 / 49.00元

在不远的未来,日常物品将能够迅速理解我们的需求,改善我们的生活,并随处可见。为了实现这一预期,我们需要能够发现用户使用产品的场景,找到用户高频刚需痛点的产品设计者。 站在下一个转型发展的悬崖上,我们看到技术将更具人性。随着物联网的发展,我们习以为常的数百件日常物品:汽车、钱包、手表、雨伞甚至垃圾桶,都将回应我们的需求,了解我们,学习为我们思考。最先出现的智能硬件为什么是智能手环、无人驾驶汽车......一起来看看 《极致:互联网时代的产品设计》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具