python爬虫爬网页时遇到网页重定向怎么办


当前第2页 返回上一页

①使用xpath('//meta[@http-equiv="refresh" and @content]/@content')提取出content的值

②使用正则表达式提取出重定向的url值。

3、js 重定向,通过JavaScript代码形式进行重定向。如下面JavaScript代码

1

<script language=javascript>window.location.href='http://www.redirectedtoxxx.com'</script>

网页包含内容这种情况是最容易解决的,一般来讲基本上是静态网页已经写死的内容,或者动态网页,采用模板渲染,浏览器获取到HTML的时候已经是包含所有的关键信息,所以直接在网页上看到的内容都可以通过特定的HTML标签得到javascript代码加载内容,这种情况是由于虽然网页显示时,内容在HTML标签里面,但是其实是由于执行js代码加到标签里面的,所以这个时候内容在js代码里面的,而js的执行是在浏览器端的操作,所以用程序去请求网页地址的时候,得到的response是网页代码和js的代码,所以自己在浏览器端能看到内容,解析时由于js未执行,肯定找到指定HTML标签下内容肯定为空,这个时候的处理办法,一般来讲主要是要找到包含内容的js代码串,然后通过正则表达式获得相应的内容,而不是解析HTML标签。

更多Python相关技术文章,请访问Python教程栏目进行学习!

以上就是python爬虫爬网页时遇到网页重定向怎么办的详细内容,更多文章请关注木庄网络博客!!

返回前面的内容

相关阅读 >>

Python中如何去除标点符号

Python学成后做什么

Python爬虫入门学什么

Python两种错误类型的介绍

Python语言有什么特点

Python中不等于怎么表示

Python可以运行在jvm上吗

Python怎么读取数据

Python学习requests爬取网页图片

django支持中文的设置方法

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...