爬虫能获取什么样的数据和具体的解析方式-木庄网络博客

本文摘自php中文网，作者爱喝马黛茶的安东尼，侵删。

随着互联网的飞速发展，越来越多的数据充斥着这个时代。而获取和处理数据就成为我们生活中必不可少的部分，爬虫也是应运而生。

众多语言都能进行爬虫，但基于python的爬虫显得更加简洁，方便。爬虫也成了python语言中必不可少的一部分。那我们通过爬虫可以获取什么样的数据呢？又有什么样的解析方式呢？

在上一篇给大家介绍的是爬虫基本流程Request和Response的介绍，本篇给大家带来的是爬虫可以获取什么样的数据和它的具体解析方式。

能抓到什么样的数据？

网页文本：如 HTML 文档，Ajax加载的Json格式文本等；

图片，视频等：获取到的是二进制文件，保存为图片或视频格式；

其他只要能请求到的，都能获取。

演示

import requests
  
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers)
print(resp.content) # 二进制文件使用content
# 保存图片
with open('logo.gif','wb') as f:
    f.write(resp.content)
    print('Ok')