【Python爬虫】Selenium自动化框架

本文详细介绍了Python爬虫中自动化处理框架Selenium的使用。先说明了使用前的准备工作,包括安装库、浏览器及驱动程序。接着阐述了其基本用法,如浏览器窗口操作、获取页面属性、交互操作和延迟等待等,涵盖多种操作方法和代码示例。


准备工作

Selenium是当下较为流行的Python自动化处理框架,适配多种主流浏览器,可以用来处理爬虫过程中的各类反爬验证操作。在使用前首先要安装Selenium库、浏览器以及对应浏览器的驱动程序。

一、安装库

可以使用pipconda安装。

# pip安装
pip install selenium

# pip镜像安装
pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

# conda安装
conda install selenium

二、安装浏览器与驱动程序

兼容浏览器 Mozilla Firefox / Google Chrome / Microsoft Edge / Safari 等主流浏览器,默认电脑已经安装,必须有对应的浏览器才可以进行自动化控制。

下面以Chrome为例演示谷歌浏览器的驱动程序安装过程。

方式一:手动安装

  • 查看浏览器版本

    在浏览器的地址栏键入Chrome://version

  • 选择对应版本号的驱动版本

    下载地址:CNPM Binaries Mirror (npmmirror.com)

    下载地址:https://chromedriver.chromium.org/home

  • 配置环境变量(可不配,直接使用驱动的绝对路径)

方式二:自动安装

  • 安装第三方库webdriver_manager

    pip install webdriver_manager
    
  • 调用第三方库的方法

    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    from webdriver_manager.chrome import ChromeDriverManager
    
    # 自动安装驱动,会自动获取当前浏览器的版本并去下载对应的驱动到本地
    # 如果本地已经有该浏览器渠道,则会提示其已存在
    browser = webdriver.Chrome(ChromeDriverManager().install())
    
    browser.get('http://www.baidu.com')
    search = browser.find_element_by_id('kw')
    search.send_keys('python')
    search.send_keys(Keys.ENTER)
    
    # 关闭浏览器
    browser.close()
    

基本用法

一、浏览器对象

浏览器对象是自动化程序的锚点,所有操作都绑定在浏览器对象上进行,需根据对应的浏览器和浏览器驱动生成对应的浏览器对象。

from selenium import webdriver

# 初始化浏览器为chrome浏览器
browser = webdriver.Chrome()

# 指定绝对路径的方式
path = r'C:\Users\Gdc\.wdm\drivers\chromedriver\win32\96.0.4664.45\chromedriver.exe'
browser = webdriver.Chrome(path)

# 关闭浏览器
browser.close()

"""
拓展:通过option参数指定浏览器对象的形式
1. 初始化无界面chrome浏览器
    option = webdriver.ChromeOptions()
    option.add_argument("--headless")
    browser = webdriver.Chrome(options=option)
2. 设置编码格式
	options = webdriver.ChromeOptions()
    options.add_argument('lang=zh_CN.UTF-8')
    browser = webdriver.Chrome(options=options)
3. 添加请求头
	options = webdriver.ChromeOptions()
    options.add_argument('user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"')
    browser = webdriver.Chrome(options=options)
4. 禁止加载图片
	options = webdriver.ChromeOptions()
    options.add_argument('blink-settings=imagesEnabled=false')
    browser = webdriver.Chrome(options=options)
5. 禁用浏览器弹窗
	options = webdriver.ChromeOptions()
    prefs = {
        'profile.default_content_setting_values': {
            'notifications': 2
        }
    }
	options.add_experimental_option('prefs', prefs)
    browser = webdriver.Chrome(options=options)
6. 禁用JavaScript
	options = webdriver.ChromeOptions()
    options.add_argument('--disable-javascript')
    browser = webdriver.Chrome(options=options)
7. 隐藏滚动条
	options = webdriver.ChromeOptions()
    options.add_argument('--hide-scrollbars')
    browser = webdriver.Chrome(options=options)
8. 以最高权限运行
	options = webdriver.ChromeOptions()
    options.add_argument('--no-sandbox')
    browser = webdriver.Chrome(options=options)
9. 添加指定插件运行
	options = webdriver.ChromeOptions()
    extension_path = '想要加载的插件路径'
    options.add_extension(extension_path)
    browser = webdriver.Chrome(options=options)
""" 

二、浏览器窗口操作

用户在生成浏览器对象之后可以对浏览器窗口进行一定的基础调整,例如调整窗口大小、使用代码刷新页面、使用代码前翻页面后翻页面等。

2.1 调整窗口大小

调用浏览器对象set_window_size()方法可以用来设置浏览器大小(分辨率)。
调用浏览器对象maximize_window()方法可以设置浏览器为全屏。

from selenium import webdriver
import time  

browser = webdriver.Chrome()

# 设置浏览器大小为全屏
browser.maximize_window()   
browser.get(r'https://www.baidu.com')  
time.sleep(2)

# 设置分辨率为500*500
browser.set_window_size(500,500)  
time.sleep(2)

# 设置分辨率为1000*800
browser.set_window_size(1000,800) 
time.sleep(2)

# 关闭浏览器
browser.close()

2.2 页面刷新

调用浏览器对象refresh()方法用以进行浏览器对象的页面刷新,相当于F5键。

from selenium import webdriver
import time  

browser = webdriver.Chrome()

# 设置浏览器全屏
browser.maximize_window()   
browser.get(r'https://www.baidu.com')  
time.sleep(2)

try:
    # 刷新页面
    browser.refresh()  
    print('刷新页面')
except Exception as e:
    print('刷新失败')

# 关闭浏览器
browser.close()

2.3 前进与后退

调用浏览器对象forward()方法可以用来实现前进。
调用浏览器对象back()方法可以用来实现后退。
读者可自行尝试,这里不做代码示例。

2.4 窗口切换

  • Frame切换

    使用浏览器对象switch_to_frame()方法进行指定id的切换,需要传入切换目标的id作为参数。

    若想回到父页面,需要使用浏览器对象switch_to.parent_frame()方法。

  • 选项卡切换<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值