提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
r
前言
requests.get 方法是一种发起网络请求的方式,如果你对 HTML 和 JS 语言有所了解,这部分内容应该非常熟悉,和 get 方法类似的还有 post、 put、 delete、 head、 options,主要掌握get 与 post
提示:以下是本篇文章正文内容,下面案例可供参考
一、主要参数
对于一个方法而言,最重要的就是它的参数,在 get 方法中,主要参数如下:
url, 请求地址,必填项
headers,请求头,非必填
params,请求参数,非必填
proxies,代理 IP,非必填
verify,SSL 验证,非必填,主要用在访问 https 协议的网站
timeout,延迟限制,非必填
cookies,网页 cookies,非必填
以上参数中只有 url 参数是必填项,所以对于访问一个网站网址,你可以直接采用下面的代码进行首次尝试。如果不能获取到数据,在考虑增加其它参数,常见的操作是增加请求头,增加代理,增加 cookies 等。
二、get 核心参数 headers
增加请求头最大的价值是可以让爬虫抓取数据时更加像浏览器在进行访问,针对此,首先增加的是 UA 参数,全称叫做 user-agent 。
第一讲提及过一个名词叫做反爬,就是被爬取的网站会采取一些措施,防止自己的数据被爬虫获取,而最常见的措施之一,就是检测请求头中的 UA 参数。UA 参数是一个特殊字符串,简单说,它会携带用户使用的操作系统版本、CPU 类型、浏览器版本、浏览器语言等等内容提供给服务器,服务器依据这些内容判断该请求是否是正常请求,甚至可以通过 UA 去检测一个请求是否在同一个时间内高频率的访问。如果出现一个相同的 UA 高频率的访问网站,系统会自动判断该请求用户为机器人,阻止继续请求。
当然 UA 参数携带这些信息还是有其它好处的,很多网站会根据 UA 携带的操作系统和浏览器版本,匹配响应的网站,这样我们可以轻易伪造出各种 UA 参数,例如可以通过 UA 伪造成 Android 手机访问一个网站,让服务器返回手机 Web 站点,很多时候,手机 Web 站点是爬取数据的重要突破点。
UA 查看方式非常简单,使用谷歌或火狐浏览器,打开开发者工具。
开发者工具打开方式有下面三种办法:
打开谷歌浏览器之后按键盘上的 F12 。
通过谷歌浏览器右上角 … 进入设置,在弹出的菜单选择更多工具,在选择开发者工具也可打开。
通过快捷键 Ctrl + Shift + I 也可打开。
在开发者工具中切换到 NetWork 面板,在下图所示区域找到你的浏览器 UA。

headers 接收的是一个字典类型的变量(Python 的一种变量类型),参照代码如下
# 导入模块
import requests
# 请求头设置
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36"
}
# 请求地址
url = "https://lanqiao-horuikidi.vercel.app/"
# 发起请求,并返回数据
res = requests.get(url=url, headers=headers)
print(res)
上述 headers 部分代码可以使用你自己检索到的 UA。
注意上述代码,还有一个小细节,get 方法中的参数,都增加了参数名,也就是 url=url 前面的 url 表示的是参数名,后面的 url 表示的变量。
headers 字典中还可以增加其它内容,例如增加 Host, Referer, Accept 等内容。在后续实验中,将逐步涉及,这些参数的核心目的是尽量让爬虫程序看起来像一个正常的访问请求,让网站将正确的数据返回给我们。
proxies 参数用于设置请求代理 IP,如果大量的访问一个网站,有时电脑的 IP 会被封禁掉,此时该参数就会起到作用,可以在每次访问的时候都通过一个代理 IP 进行请求,防止服务器封杀 IP 操作。
get 方法在后续的课程中是出现频率最高的方法,大家可以提前将所有的参数都预实验一遍,熟悉代码写法。
总结
例如:以上就是关于requests中一些参数的情况具体内容可以参考官方文档``
本文详细介绍了Python requests库的get方法,包括主要参数如url、headers、params等,并重点解析了headers参数,尤其是user-agent在反爬中的作用。同时提到了proxies参数用于设置代理IP以避免IP被封禁。建议读者通过实验熟悉get方法的所有参数。
&spm=1001.2101.3001.5002&articleId=125758265&d=1&t=3&u=6bea43907c3e4d6da74f37ac181fadda)
1910

被折叠的 条评论
为什么被折叠?



