解决爬虫出现403问题的办法

2021-10-07 14:21:10 php中文网 Python 百度已收录

本文摘自php中文网，作者零到壹度，侵删。

在python写爬虫的时候，html.getcode()会遇到403禁止访问的问题，这是网站对自动化爬虫的禁止。这篇文章主要介绍了Angular2进阶之如何解决爬虫出现403问题的办法,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧

要解决这个问题，需要用到python的模块urllib2模块

urllib2模块是属于一个进阶的爬虫抓取模块，有非常多的方法

比方说连接url=http://blog.csdn.net/qysh123

对于这个连接就有可能出现403禁止访问的问题

解决这个问题，需要以下几步骤：

1

2

3

4

5

<span style="font-size:18px;">req = urllib2.Request(url)  
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")  
req.add_header("GET",url)  
req.add_header("Host","blog.csdn.net")  
req.add_header("Referer","http://blog.csdn.net/")</span>

其中User-Agent是浏览器特有的属性，通过浏览器查看源代码就可以查看到

然后html=urllib2.urlopen(req)

print html.read()

就可以把网页代码全部下载下来，而没有了403禁止访问的问题。

对于以上问题，可以封装成函数，供以后调用方便使用，具体代码：

阅读剩余部分

相关阅读 >>

Python的append是什么意思

Python处理gif动态图的解析与合成操作的介绍

在Python3.x中可以使用中文作为变量名吗

Python压缩与解压缩zip文件的实现方法

Python解释器是什么

Python的自然数怎么表示

Python3是什么意思啊

Python利用不到一百行代码实现一个小siri

Python如何安装opencv库

r语言和Python的详细对比

更多相关阅读请进入《Python》频道 >>

Python编程从入门到实践第2版

书籍

Python编程从入门到实践第2版

￥69.8元 人民邮电出版社

python入门书籍，非常畅销，超高好评，python官方公认好书。

转载请注明出处：木庄网络博客 » 解决爬虫出现403问题的办法

标签：

木庄网络博客

感谢您的支持，我会继续努力的!

扫码支持

扫码打赏，您说多少就多少

支付宝

打开支付宝扫一扫，即可进行扫码打赏哦

分享从这里开始，精彩与您同在

相关推荐

评论

管理员已关闭评论功能...

欢迎访问木庄网络博客
可复制：代码框内的文字。
方法：Ctrl+C。