本文摘自php中文网,作者小云云,侵删。
一、Tesseract简介Tesseract是一个OCR库(OCR是英文Optical Character Recognition的缩写),它用来对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程,Tesseract是目前公认最优秀,识别相对精准的OCR库。
二、Tesseract的使用
1.下载并安装Tesseract:点击下载
2.在Windows系统下设置环境变量:
1 2 |
|
3.安装pytesseract模块
1 |
|
4.在Python脚本中引入tesseract.exe应用程序的方式:
1 |
|
5.案例演示
识别以下图片文字:
1 2 3 4 5 6 7 8 9 10 |
|
结果演示:
<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=611x210 at 0x1A5DFDCB4A8>
Google
注:tesseract-OCR引擎识别验证码有些无法识别,比如像豆瓣生成的验证码无法识别其内容,如果需要爬取豆瓣中的数据这时候就需要手动的输入验证码:
三、模拟登陆知乎源码
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 |
|
相关推荐:
python下调用pytesseract识别某网站验证码
以上就是python使用Tesseract库实现识别验证的详细内容,更多文章请关注木庄网络博客!!
相关阅读 >>
使用Python将数组的元素导出到变量中(unpacking)
更多相关阅读请进入《Python》频道 >>

Python编程 从入门到实践 第2版
python入门书籍,非常畅销,超高好评,python官方公认好书。