python利用Tesseract识别验证码

栏目: Python · 发布时间: 5年前

内容简介:无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块下载地址:下载完成后,双击安装,可以勾选

无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈 python 中光学识别验证码模块 tesserocrpytesseracttesserocrpytesseract 是Python的一个OCR识别库,但其实是对 tesseract 做的一层Python API封装, pytesseract 是Google的 Tesseract-OCR 引擎包装器;所以它们的核心是 tesseract ,因此在安装 tesserocr 之前,我们需要先安装 tesseract

下载安装

下载地址: https://digi.bib.uni-mannheim...

下载完成后,双击安装,可以勾选 Additional language data(download) 选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从 https://github.com/tesseract-... 下载zip的语言包压缩文件,解压后将 tessdata-master 中的文件复制到 Tesseract 的安装目录 C:\Program Files (x86)\Tesseract-OCR\tessdata 目录下,最后我们配置下环境变量,我们将 C:\Program Files (x86)\Tesseract-OCR 添加到环境变量中。进入命令提示符,输入 tesseract ,显示下图结果,说明配置完成

python利用Tesseract识别验证码

查看安装了的语言包: tesseract --list-langs

python利用Tesseract识别验证码

显示我一共安装了167种语言包,里边包含英文或者其他字符。

测试

实验用的二维码

python利用Tesseract识别验证码

基本使用语法

tesseract image.png result (tesseract 图片名称 生成文件名称)

结果

python利用Tesseract识别验证码

由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下载安装 pip install pytesseract

识别验证码脚本

import pytesseract
from PIL import Image

im=Image.open('pin.png')
print(pytesseract.image_to_string(im))

结果

python利用Tesseract识别验证码

这样识别的结果同样跟上文一样,个别字符识别的不是很准确

图像处理

现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化

import pytesseract
from PIL import Image

im=Image.open('5.jpg')
#进行置灰处理
im=im.convert('L')
#这个是二值化阈值
threshold=150
table=[]
for i in range(256):
    if i<threshold:
        table.append(0)
    else:
        table.append(1)
#通过表格转换成二进制图片,1的作用是白色,0就是黑色
im=im.point(table,"1")
im.show()
print(pytesseract.image_to_string(im))

原图

python利用Tesseract识别验证码

置灰和二值化后

python利用Tesseract识别验证码

想要提高识别率只能下载训练好的语言包,如上述所说,或者用深度学习的方法训练机器

原文地址: https://nolon.xyz/archives/77/


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Perl语言编程

Perl语言编程

克里斯蒂安森 (Tom Christiansen) (作者)、Brian D Foy (作者)、Larry Wall (作者)、Jon Orwant (作者) / 苏金国 (译者)、吴爽 (译者) / 中国电力出版社 / 2014-9-1 / 148

从1991年第一版问世以来,《Perl语言编程》很快成为无可争议的Perl宝典,如今仍是这种高实用性语言的权威指南。Perl最初只是作为一个功能强大的文本处理工具,不过很快发展成为一种通用的编程语言,可以帮助成千上万的程序员、系统管理员,以及像你一样的技术爱好者轻松完成工作。 人们早已经翘首以待这本“大骆驼书”的更新,如今终于得偿所愿。在这一版中,三位颇有声望的Perl作者讲述了这种语言当前......一起来看看 《Perl语言编程》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具