本文摘自php中文网,作者云罗郡主,侵删。
本篇文章给大家带来的内容是关于Python爬虫---汽车之家字体反爬,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。目标网站:汽车之家
目标网址:https://club.autohome.com.cn/bbs/thread/2d8a42404ba24266/77486027-1.html#pvareaid=2199101
缘由:
今天原来的同事让我看一个网站:“汽车之家”,起初看了看感觉应该没有反爬措施吧,但是实际在操作中,发现原来是字体进行了反爬加密。
查看源码:
不禁惊讶,难道是UTF-8编码的文字吗?于是在线转换,
通过转换还是发现,获取到的竟然还是假的字体。不信邪的我重新把文章给粘贴到NotePad++上结果发现:
原来这些字体是粘贴不上去的。好吧,只能考虑字体设置了反爬。看到源码中
<span style='font-family: myfont;'></span> 那么便通过myfont看是否能发现点东西不?结果还真有所发现
这不是..ttf字体吗?难道是使用这种字体加密的吗?那么先下载下来这种字体看是否猜测正确,下载过字体后这边推荐一款查看..ttf字体的一个工具:Font Creator(自行下载…)下载打开查看
上边每个字显示其字形和其字形编码,那么不禁想了想,这两种字体是怎么转换的呢?翻看好多大佬博客找到一款专门解析font的python包,fonttools。自行安装pip install fonttools 参考链接:https://darknode.in/font/font-tools-guide/
1 2 3 4 5 6 7 8 9 10 |
|
关于映射这点,其实是有点疑问的utf-8和unicode之间有什么关系?建议参考知乎详解:
https://www.zhihu.com/question/23374078
好了,上边已经把所有的东西准备好了,写一下代码吧。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 |
|
结果展示:
以上就是对的全部介绍,希望大家可以有所收获,更多Python视频教程请关注PHP中文网。
以上就是Python爬虫---汽车之家字体反爬的详细内容,更多文章请关注木庄网络博客!!
相关阅读 >>
更多相关阅读请进入《Python》频道 >>

Python编程 从入门到实践 第2版
python入门书籍,非常畅销,超高好评,python官方公认好书。