内容简介:Node实现验证码识别
copy了别人代码的你
最近忽然对图像识别有了兴趣,作为一个前端,当然是想用Javascript来深入研究。
先从简单的入手,识别图片验证码。图片验证码对web开发来说一点也不陌生,它是对服务器保护的一道屏障,避免了诸如暴力破解密码之类的攻击。但是,今天就是要去突破这道屏障。
现在开源的图像识别技术有很多,我在GitHub上找到了一个用Javascript实现的,相对受欢迎的框架 Tesseract.js
。
我先准备好一个简单的验证码
这个是数字字母的组合,接下来我们就用 tesseract.js
来对这个验证码进行解析。
安装
npm install --save tesseract.js
使用这个命令进行安装, --save
代表只安装到当前项目中。
使用
首先要在代码中进行引入
var tesseract = require('tesseract.js');
然后使用tesseract的recognize方法对图片进行解析。
tesseract.recognize(myImage,options) .then(function(result){ console.log(result) });
其中,myImage可以是图片file对象,或者图片的存放地址的字符串等,我们这里先用存放地址的字符串。
options则是对解析过程的个性化设置,可以设置语言等其他属性,较为重要的有 lang
属性,用来设置语言类型,英文为 eng
(默认),数字是 Math
.
运行效果
下面我们来看一下实际的运行效果。
文件系统
app.js
使用node命令运行
可以看出,输出的结果是 LPGU
,验证码中的字母数字组合是 LP6U
,略有偏差,将6解析成了G。
所以,自动识别虽好,但是准确率还是需要提高。
Tesseract.js训练
tesseract.js是可以通过训练来提高准确率的,我们看一下第一次运行结束后发生了什么变化。
运行结束之后,文件系统中生成了一个 eng.traineddata
文件
这个文件,就是 tesseract
的训练文件,下次再分析的时候,会先从这个训练文件中寻找是否有匹配的结果。通过这种方式,形成它自己的大脑。
当然,我认为也可以手动的添加相同格式的文件进去,手动的扩充这个图像分析系统的智能性。
附录一
recognize
第一个参数所允许的类型:
因为 tesseract.js
既可以运行node服务器中,也可以运行再浏览器中,我们这里只提在服务器中所允许的类型
-
文件地址(string)
-
包含
PNG
或JPEG
类型的Buffer
对象 -
imageData
对象
附录二
浏览器中引入方式
<script src='https://cdn.rawgit.com/naptha/tesseract.js/1.0.10/dist/tesseract.js'></script>
使用方式同node方法
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- Python爬虫验证码识别(使用Tesseract OCR识别)
- python验证码识别实战2
- python验证码识别实例代码
- 常用验证码的识别方法
- python使用Tesseract库识别验证
- python利用Tesseract识别验证码
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
大学程序设计课程与竞赛训练教材
吴永辉、王建德 / 机械工业出版社 / 2013-6 / 69.00
本书每章为一个主题,实验内容安排紧扣大学算法和数学的教学,用程序设计竞赛中的算法和数学试题作为实验试题,将算法和数学的教学与程序设计竞赛的解题训练结合在一起;在思维方式和解题策略的训练方面,以问题驱动和启发式引导为主要方式,培养读者通过编程解决问题的能力。 本书特点: 书中给出的234道试题全部精选自ACM国际大学生程序设计竞赛的世界总决赛以及各大洲赛区现场赛和网络预赛、大学程序设计竞......一起来看看 《大学程序设计课程与竞赛训练教材》 这本书的介绍吧!