playwright实现百度搜索--包含跳过人机验证

目录

前言

一、完成简单的自动化流程

二、添加反检测机制

三、加入人为抖动(锦上添花)


前言

本章节会涉及到一些新的内容组件的操作,本质上还是通过模拟人的一些行为逻辑来规避检测。还有注入一些反检测的手段来进行操作。

详情参考反检测手段playwright反检测技术指南-CSDN博客

一、完成简单的自动化流程

打开百度界面,点击输入框,然后输入天气,点击百度搜索一下,这一个流程。

注意啊,是百度界面,不是文言一心的百度界面

这个操作很简单,这里就不做过多介绍了,示例代码如下

import asyncio
import time
from playwright.async_api import async_playwright

async def main():
    async with async_playwright() as p:
        # 纯原始 Playwright,不加任何配置
        browser = await p.chromium.launch(headless=False)
        page = await browser.new_page()
        await page.goto("https://www.baidu.com")

        time.sleep(2)

        input_box = page.locator("#chat-input-area")
        await input_box.wait_for(timeout=10000)
        await input_box.click()
        await page.keyboard.type("天气")

        search_btn = page.locator("#chat-submit-button")
        await search_btn.wait_for(timeout=5000)
        await search_btn.click()

        time.sleep(5)
        await browser.close()
    return 0

if __name__ == '__main__':
    asyncio.run(main())

注:这边不采取page.fill()函数是因为会容易出现报错的原因,直接采取keyborad会更加简单和可维护。

大概运行会出现这个页面,需要你人机验证

那么现在升级一下。

二、添加反检测机制

browser = await p.chromium.launch(
       headless=False,
       args=['--disable-blink-features=AutomationControlled']
 )
page = await browser.new_page()
await page.set_viewport_size({'width': 1920, 'height': 1080})
await page.add_init_script("""
    Object.defineProperty(navigator, 'webdriver', {
        get: () => undefined
        });
""")

也就是在开头注入一些内容,这个大小可设置和不设置

如有不太清楚可参考我这篇文章:playwright反检测技术指南-CSDN博客

完整的示例代码:

import asyncio
import time
from playwright.async_api import async_playwright

async def main():
    async with async_playwright() as p:
        # 仅保留反检测配置
        browser = await p.chromium.launch(
            headless=False,
            args=['--disable-blink-features=AutomationControlled']
        )
        page = await browser.new_page()
        await page.set_viewport_size({'width': 1920, 'height': 1080})
        await page.add_init_script("""
            Object.defineProperty(navigator, 'webdriver', {
                get: () => undefined
            });
        """)
        await page.goto("https://www.baidu.com")

        # 保留加载等待
        time.sleep(2)

        # 直接定位输入框 → 直接点击 → 直接输入(不逐字、不抖动)
        input_box = page.locator("#chat-input-area")
        await input_box.wait_for(timeout=10000)
        await input_box.click()
        await page.keyboard.type("天气")

        # 直接定位搜索按钮 → 直接点击(不分步移动)
        search_btn = page.locator("#chat-submit-button")
        await search_btn.wait_for(timeout=5000)
        await search_btn.click()

        time.sleep(5)
        await browser.close()
    return 0

if __name__ == '__main__':
    asyncio.run(main())

直接运行,是没有问题的。

类似会出现我这种效果

是没有人机验证的 至于为什么加入time.sleep就是为了检测和查看是否完成预期效果 或者说人机验证,后续可删除。

三、加入人为抖动(锦上添花)

对于大部分网站上面的内容完全足够了,除非遇到一些检测机制比较严苛的,那么就需要加入人为抖动了,模拟人的操作的方法了。这里不做过多介绍,这里就把百度的参考代码给你们看看,理解一下。

import asyncio
import time
import random
from playwright.async_api import async_playwright

async def main():
    async with async_playwright() as p:
        browser = await p.chromium.launch(
            headless=False,
            args=['--disable-blink-features=AutomationControlled']
        )
        page = await browser.new_page()
        await page.set_viewport_size({'width': 1920, 'height': 1080})
        await page.add_init_script("""
            Object.defineProperty(navigator, 'webdriver', {
                get: () => undefined
            });
        """)
        await page.goto("https://www.baidu.com")
        print(f"当前页面URL: {page.url}")

        time.sleep(random.uniform(1,2))

        # # 调试:检查元素是否在 DOM 中 / 可见
        # dom_exists = await page.evaluate("document.querySelector('#chat-input-area') !== null")
        # visible = await page.evaluate("""() => {
        #     const el = document.querySelector('#chat-input-area');
        #     if (!el) return 'DOM中不存在';
        #     const style = getComputedStyle(el);
        #     const rect = el.getBoundingClientRect();
        #     return `display:${style.display} vis:${style.visibility} w:${rect.width} h:${rect.height} top:${rect.top} left:${rect.left}`;
        # }""")
        # print(f"DOM存在:{dom_exists}  元素状态:{visible}")

        # 获取输入框 加入人为抖动,,人的操作模拟
        input_box = await page.wait_for_selector("#chat-input-area", timeout=10000)
        box =await input_box.bounding_box()
        print(box)
        click_x = box['x']+random.uniform(0,box['width'])
        click_y = box['y']+random.uniform(0,box['height'])
        await page.mouse.click(click_x,click_y)
        filet_list = ["天气"]
        for i in filet_list:
            for char in i:
                await page.keyboard.type(char, delay=random.uniform(50, 200))
                await asyncio.sleep(random.uniform(0.1, 0.3))

        # 使用 locator 定位搜索按钮(每次获取实时位置)
        search_btn = page.locator("#chat-submit-button")
        await search_btn.wait_for(timeout=5000)

        print(f"点击搜索按钮的组件位置:{await search_btn.bounding_box()}")

        # 鼠标分步移动到按钮位置(最后一步重新获取实时位置)
        steps = random.randint(5, 10)
        start_x, start_y = click_x, click_y
        for step in range(1, steps + 1):
            progress = step / steps
            # 前几步朝大方向移动
            box = await search_btn.bounding_box()
            target_x = box['x'] + random.uniform(0, box['width'])
            target_y = box['y'] + random.uniform(0, box['height'])
            curr_x = start_x + (target_x - start_x) * progress + random.uniform(-5, 5)
            curr_y = start_y + (target_y - start_y) * progress + random.uniform(-5, 5)
            await page.mouse.move(curr_x, curr_y)
            await asyncio.sleep(random.uniform(0.03, 0.1))
        # 最后再获取一次最新位置并点击
        final_box = await search_btn.bounding_box()
        final_x = final_box['x'] + random.uniform(0, final_box['width'])
        final_y = final_box['y'] + random.uniform(0, final_box['height'])
        await page.mouse.move(final_x, final_y)
        await asyncio.sleep(random.uniform(0.05, 0.1))
        await page.mouse.click(final_x, final_y)

        time.sleep(10)

        await browser.close()
    return 0

if __name__ =='__main__':
    asyncio.run(main())

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值