文章目录
准备工作
Selenium是当下较为流行的Python自动化处理框架,适配多种主流浏览器,可以用来处理爬虫过程中的各类反爬验证操作。在使用前首先要安装Selenium库、浏览器以及对应浏览器的驱动程序。
一、安装库
可以使用pip或conda安装。
# pip安装
pip install selenium
# pip镜像安装
pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple
# conda安装
conda install selenium
二、安装浏览器与驱动程序
兼容浏览器 Mozilla Firefox / Google Chrome / Microsoft Edge / Safari 等主流浏览器,默认电脑已经安装,必须有对应的浏览器才可以进行自动化控制。
下面以Chrome为例演示谷歌浏览器的驱动程序安装过程。
方式一:手动安装
-
查看浏览器版本
在浏览器的地址栏键入
Chrome://version -
选择对应版本号的驱动版本
下载地址:CNPM Binaries Mirror (npmmirror.com)
下载地址:https://chromedriver.chromium.org/home
-
配置环境变量(可不配,直接使用驱动的绝对路径)
方式二:自动安装
-
安装第三方库
webdriver_managerpip install webdriver_manager -
调用第三方库的方法
from selenium import webdriver from selenium.webdriver.common.keys import Keys from webdriver_manager.chrome import ChromeDriverManager # 自动安装驱动,会自动获取当前浏览器的版本并去下载对应的驱动到本地 # 如果本地已经有该浏览器渠道,则会提示其已存在 browser = webdriver.Chrome(ChromeDriverManager().install()) browser.get('http://www.baidu.com') search = browser.find_element_by_id('kw') search.send_keys('python') search.send_keys(Keys.ENTER) # 关闭浏览器 browser.close()
基本用法
一、浏览器对象
浏览器对象是自动化程序的锚点,所有操作都绑定在浏览器对象上进行,需根据对应的浏览器和浏览器驱动生成对应的浏览器对象。
from selenium import webdriver
# 初始化浏览器为chrome浏览器
browser = webdriver.Chrome()
# 指定绝对路径的方式
path = r'C:\Users\Gdc\.wdm\drivers\chromedriver\win32\96.0.4664.45\chromedriver.exe'
browser = webdriver.Chrome(path)
# 关闭浏览器
browser.close()
"""
拓展:通过option参数指定浏览器对象的形式
1. 初始化无界面chrome浏览器
option = webdriver.ChromeOptions()
option.add_argument("--headless")
browser = webdriver.Chrome(options=option)
2. 设置编码格式
options = webdriver.ChromeOptions()
options.add_argument('lang=zh_CN.UTF-8')
browser = webdriver.Chrome(options=options)
3. 添加请求头
options = webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"')
browser = webdriver.Chrome(options=options)
4. 禁止加载图片
options = webdriver.ChromeOptions()
options.add_argument('blink-settings=imagesEnabled=false')
browser = webdriver.Chrome(options=options)
5. 禁用浏览器弹窗
options = webdriver.ChromeOptions()
prefs = {
'profile.default_content_setting_values': {
'notifications': 2
}
}
options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(options=options)
6. 禁用JavaScript
options = webdriver.ChromeOptions()
options.add_argument('--disable-javascript')
browser = webdriver.Chrome(options=options)
7. 隐藏滚动条
options = webdriver.ChromeOptions()
options.add_argument('--hide-scrollbars')
browser = webdriver.Chrome(options=options)
8. 以最高权限运行
options = webdriver.ChromeOptions()
options.add_argument('--no-sandbox')
browser = webdriver.Chrome(options=options)
9. 添加指定插件运行
options = webdriver.ChromeOptions()
extension_path = '想要加载的插件路径'
options.add_extension(extension_path)
browser = webdriver.Chrome(options=options)
"""
二、浏览器窗口操作
用户在生成浏览器对象之后可以对浏览器窗口进行一定的基础调整,例如调整窗口大小、使用代码刷新页面、使用代码前翻页面后翻页面等。
2.1 调整窗口大小
调用浏览器对象set_window_size()方法可以用来设置浏览器大小(分辨率)。
调用浏览器对象maximize_window()方法可以设置浏览器为全屏。
from selenium import webdriver
import time
browser = webdriver.Chrome()
# 设置浏览器大小为全屏
browser.maximize_window()
browser.get(r'https://www.baidu.com')
time.sleep(2)
# 设置分辨率为500*500
browser.set_window_size(500,500)
time.sleep(2)
# 设置分辨率为1000*800
browser.set_window_size(1000,800)
time.sleep(2)
# 关闭浏览器
browser.close()
2.2 页面刷新
调用浏览器对象refresh()方法用以进行浏览器对象的页面刷新,相当于F5键。
from selenium import webdriver
import time
browser = webdriver.Chrome()
# 设置浏览器全屏
browser.maximize_window()
browser.get(r'https://www.baidu.com')
time.sleep(2)
try:
# 刷新页面
browser.refresh()
print('刷新页面')
except Exception as e:
print('刷新失败')
# 关闭浏览器
browser.close()
2.3 前进与后退
调用浏览器对象forward()方法可以用来实现前进。
调用浏览器对象back()方法可以用来实现后退。
读者可自行尝试,这里不做代码示例。
2.4 窗口切换
-
Frame切换使用浏览器对象
switch_to_frame()方法进行指定id的切换,需要传入切换目标的id作为参数。若想回到父页面,需要使用浏览器对象
switch_to.parent_frame()方法。 -
选项卡切换<

本文详细介绍了Python爬虫中自动化处理框架Selenium的使用。先说明了使用前的准备工作,包括安装库、浏览器及驱动程序。接着阐述了其基本用法,如浏览器窗口操作、获取页面属性、交互操作和延迟等待等,涵盖多种操作方法和代码示例。

269

被折叠的 条评论
为什么被折叠?



