本文摘自php中文网,作者零下一度,侵删。
本文给大家介绍的是使用python开发的爬虫框架talonspider的简单介绍以及使用方法,有需要的小伙伴可以参考下1.为什么写这个?
一些简单的页面,无需用比较大的框架来进行爬取,自己纯手写又比较麻烦
因此针对这个需求写了talonspider:
?1.针对单页面的item提取 - 具体介绍点这里
?2.spider模块 - 具体介绍点这里
2.介绍&&使用
2.1.item
这个模块是可以独立使用的,对于一些请求比较简单的网站(比如只需要get请求),单单只用这个模块就可以快速地编写出你想要的爬虫,比如(以下使用python3,python2见examples目录):
2.1.1.单页面单目标
比如要获取这个网址http://book.qidian.com/info/1004608738 的书籍信息,封面等信息,可直接这样写:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
|
具体见qidian_details_by_item.py
2.1.1.单页面多目标
比如获取豆瓣250电影首页展示的25部电影,这一个页面有25个目标,可直接这样写:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
|
具体见douban_page_by_item.py
2.2.spider
当需要爬取有层次的页面时,比如爬取豆瓣250全部电影,这时候spider部分就派上了用场:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 |
|
控制台:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
|
此时当前目录会生成douban250.txt,具体见douban_page_by_spider.py。
3.说明
学习之作,待完善的地方还有很多,欢迎提意见,项目地址talonspider。
以上就是浅谈python中爬虫框架(talonspider)的介绍的详细内容,更多文章请关注木庄网络博客!!
相关阅读 >>
Python基于flask_sqlalchemy的网页显示数据库信息的代码示例
Python编程用什么好?了解当下最火热的Python cgi编程
更多相关阅读请进入《Python》频道 >>

Python编程 从入门到实践 第2版
python入门书籍,非常畅销,超高好评,python官方公认好书。