如何使用Python的Requests包实现模拟登陆


本文摘自php中文网,作者不言,侵删。

这篇文章主要为大家详细介绍了使用Python的Requests包模拟登陆,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

前段时间喜欢用python去抓一些页面玩,但都基本上都是用get请求一些页面,再通过正则去过滤。

今天试了一下,模拟登陆个人网站。发现也比较简单。读懂本文需要对http协议和http会话有一定的理解。

注明:因为模拟登陆的是我的个人网站,所以以下代码对个人网站和账号密码做了处理。

网站分析

爬虫的必备第一步,分析目标网站。这里使用谷歌浏览器的开发者者工具分析。

通过登陆抓取,看到这样一个请求。

上方部分为请求头,下面部分为请求是传的参数。由图片可以看出,页面通过表单提交了三个参数。分别为_csrf,usermane,password。

其中csrf是为了预防跨域脚本伪造。原理很简单,就是每一次请求,服务器生成一串加密字符串。放在隐藏的input表单中。再一次请求的时候,把这个字符串一起传过去,为了验证是否为同一个用户的请求。

因此,我们的代码逻辑就有了。首先请求一次登录页面。然后分析页面,拿到csrf字符串。最后把这个字符串和账号密码一起传给服务器用来登录。

第一份代码

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

#!/usr/bin/env python2.7

# -*- coding: utf-8 -*-

 

import requests

import re

 

# 头部信息

headers = {

 'Host':"localhost",

 'Accept-Language':"zh-CN,zh;q=0.8",

 'Accept-Encoding':"gzip, deflate",

 'Content-Type':"application/x-www-form-urlencoded",

 'Connection':"keep-alive",

 'Referer':"http://localhost/login",

 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"

}

 

# 登陆方法

def login(url,csrf):

 data = {

 "_csrf" : csrf,

 "username": "xiedj",

 "password": "***"

 }

 

 response = requests.post(url, data=data, headers=headers)

 return response.content

 

 

# 第一次访问获取csrf值

def get_login_web(url):

 page = requests.get('http://localhost/login')

 reg = r'<meta name="csrf-token" content="(.+)">'

 csrf = re.findall(reg,page.content)[0]

 login_page = login(url,csrf)

 print login_page

 

 

if __name__ == "__main__":

 url = "http://localhost/login/checklogin"

 get_login_web(url)

代码看起来好像没有什么问题。然而执行的时候出错了。核查了一下,错误的原因是,csrf验证失败!

再多次确认获取的csrf和请求登录的csrf字符串没问题了之后,我想到了一个问题。
如果,大家还不知道错误原因的话,这里可以暂停思考一个问题。“服务器如何知道,第一次请求获取csrf和第二次post登录请求是同一个用户?”

到这,应该都清楚了,如果要登录成功,需要解决如何让服务相信两次请求是同一个用户。这里需要用到http会话(不清楚的可以自行百度,这里简单介绍)。

http协议是一个种无状态的协议。为了使这种无状态变得有状态,因此引进了会话。简单的讲,通过session去记录这个状态。当一个用户第一次请求web服务的时候,服务器会生成一个session,用于保存这个用户的信息。同时,在返回给用户端时,把这个sessionID保存在cookies里。当用户再一次请求的时候,浏览器会把这个cookies带上。因此在服务器端就能知道多次请求是否为同一个用户。

阅读剩余部分

相关阅读 >>

Python通过matplotlib简单绘制动画实例

mac自带Python在哪

Python中如何使用jpype实现调用java的实例分享

十分钟利用Python制作属于你自己的个性logo

如何访问Python字典里的值?(实例解析)

Python类对象实例对象的区别

Python读取文件名称生成list的方法

Python中线程终止与挂起的实现方法

Python 快速使用 rest api

Python如何输出换行

更多相关阅读请进入《Python》频道 >>




打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,您说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

评论

管理员已关闭评论功能...