爬虫能获取什么样的数据和具体的解析方式


本文摘自php中文网,作者爱喝马黛茶的安东尼,侵删。

随着互联网的飞速发展,越来越多的数据充斥着这个时代。而获取和处理数据就成为我们生活中必不可少的部分,爬虫也是应运而生。

众多语言都能进行爬虫,但基于python的爬虫显得更加简洁,方便。爬虫也成了python语言中必不可少的一部分。那我们通过爬虫可以获取什么样的数据呢?又有什么样的解析方式呢?

在上一篇给大家介绍的是爬虫基本流程Request和Response的介绍,本篇给大家带来的是爬虫可以获取什么样的数据和它的具体解析方式。

zz.jpg


能抓到什么样的数据?

网页文本:如 HTML 文档,Ajax加载的Json格式文本等;

图片,视频等:获取到的是二进制文件,保存为图片或视频格式;

其他只要能请求到的,都能获取。

演示

1

2

3

4

5

6

7

8

9

import requests

  

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers)

print(resp.content) # 二进制文件使用content

# 保存图片

with open('logo.gif','wb') as f:

    f.write(resp.content)

    print('Ok')

成功运行就可以看到打印出来的图片的二进制数据,可保存成功后打印的 OK,这个时候我们打开文件夹就可以看到下载下来的图片了。这几行代码就简单的演示了爬虫保存文件的过程。



解析方式有哪些?

直接处理,比如简单的页面文档,只要去除一些空格的数据;

Json解析,处理Ajax加载的页面;

正则表达式;

BeautifulSoup库;

PyQuery;

XPath。


总结

看到这里,大家是不是已经对爬虫的基本工作原理有了清晰的认识了呢。当然,罗马并不是一天建成的,只要积累了足够多的经验,大家肯定能成为爬虫大神的。相信大家把我分享的相关资料看完,一定会成功的。

以上就是爬虫能获取什么样的数据和具体的解析方式的详细内容,更多文章请关注木庄网络博客!!

相关阅读 >>

Python英文怎么读

Python使用matplotlib实现的图像读取、切割裁剪功能示例

Python如何求阶乘

Python未来会进课本么

Python中eval函数怎么用

Python怎么导入tkinter

Python中的map怎么使用(方法详解)

怎样在Python中sum求和

Python迭代模式实例详解

如何安装Python

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...