本文摘自php中文网,作者巴扎黑,侵删。
前提:python3.4
windows
作用:通过搜狗的微信搜索接口来搜索相关微信文章,并将标题及相关链接导入Excel表格中
说明:需xlsxwriter模块,另程序编写时间为2017/7/11,以免之后程序无法使用可能是网站做过相关改变,程序较为简单,除去注释40多行。
正题:
思路:打开初始Url --> 正则获取标题及链接 --> 改变page循环第二步 --> 将得到的标题及链接导入Excel
爬虫的第一步都是先手工操作一遍(闲话)
进入上面提到的网址,如输入:“图片识别”,搜索,网址变为“”标红为重要参数,type=1时是搜索公众号,暂且不管,query=‘搜索关键词’,关键词已经被编码,还有一个隐藏参数page=1
当你跳到第二页时可以看到“”
好了,url可以得到了
1 url = 'http://weixin.sogou.com/weixin?type=2&query='+search+'&page='+str(page)
search是要搜索的关键词,用quote()编码即可插入
1 |
|
page是用来循环的
1 2 |
|
完整的url已经得到了,接下来访问url,获得其中的数据(创建opener对象,添加header())
1 2 3 4 5 6 |
|
得到页面内容,采用正则表达获取相关数据
1 2 3 |
|
通过正则获取的数据中存在干扰项(链接:‘amp;’)和无关项(标题:'<em><...><....></em>'),用replace()解决
1 2 |
|
1 |
|
将处理后的标题和链接保存在列表中
1 2 |
|
如此搜索的标题和链接都得到了,接下来导入Excel
先创建Excel
1 2 |
|
1 |
|
将title_link中的数据导入Excel
1 2 3 4 |
|
完整代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 |
|
以上就是python3爬取微信文章的详细内容,更多文章请关注木庄网络博客!!
相关阅读 >>
利用Python执行shell脚本 并动态传参 及subprocess基本使用
Python中出现"indentationerror: unexpected indent"错误的解决
更多相关阅读请进入《Python》频道 >>

Python编程 从入门到实践 第2版
python入门书籍,非常畅销,超高好评,python官方公认好书。