目录
前言
本章节会涉及到一些新的内容组件的操作,本质上还是通过模拟人的一些行为逻辑来规避检测。还有注入一些反检测的手段来进行操作。
详情参考反检测手段playwright反检测技术指南-CSDN博客
一、完成简单的自动化流程
打开百度界面,点击输入框,然后输入天气,点击百度搜索一下,这一个流程。
注意啊,是百度界面,不是文言一心的百度界面

这个操作很简单,这里就不做过多介绍了,示例代码如下
import asyncio
import time
from playwright.async_api import async_playwright
async def main():
async with async_playwright() as p:
# 纯原始 Playwright,不加任何配置
browser = await p.chromium.launch(headless=False)
page = await browser.new_page()
await page.goto("https://www.baidu.com")
time.sleep(2)
input_box = page.locator("#chat-input-area")
await input_box.wait_for(timeout=10000)
await input_box.click()
await page.keyboard.type("天气")
search_btn = page.locator("#chat-submit-button")
await search_btn.wait_for(timeout=5000)
await search_btn.click()
time.sleep(5)
await browser.close()
return 0
if __name__ == '__main__':
asyncio.run(main())
注:这边不采取page.fill()函数是因为会容易出现报错的原因,直接采取keyborad会更加简单和可维护。
大概运行会出现这个页面,需要你人机验证

那么现在升级一下。
二、添加反检测机制
browser = await p.chromium.launch(
headless=False,
args=['--disable-blink-features=AutomationControlled']
)
page = await browser.new_page()
await page.set_viewport_size({'width': 1920, 'height': 1080})
await page.add_init_script("""
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
});
""")
也就是在开头注入一些内容,这个大小可设置和不设置
如有不太清楚可参考我这篇文章:playwright反检测技术指南-CSDN博客
完整的示例代码:
import asyncio
import time
from playwright.async_api import async_playwright
async def main():
async with async_playwright() as p:
# 仅保留反检测配置
browser = await p.chromium.launch(
headless=False,
args=['--disable-blink-features=AutomationControlled']
)
page = await browser.new_page()
await page.set_viewport_size({'width': 1920, 'height': 1080})
await page.add_init_script("""
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
});
""")
await page.goto("https://www.baidu.com")
# 保留加载等待
time.sleep(2)
# 直接定位输入框 → 直接点击 → 直接输入(不逐字、不抖动)
input_box = page.locator("#chat-input-area")
await input_box.wait_for(timeout=10000)
await input_box.click()
await page.keyboard.type("天气")
# 直接定位搜索按钮 → 直接点击(不分步移动)
search_btn = page.locator("#chat-submit-button")
await search_btn.wait_for(timeout=5000)
await search_btn.click()
time.sleep(5)
await browser.close()
return 0
if __name__ == '__main__':
asyncio.run(main())
直接运行,是没有问题的。
类似会出现我这种效果

是没有人机验证的 至于为什么加入time.sleep就是为了检测和查看是否完成预期效果 或者说人机验证,后续可删除。
三、加入人为抖动(锦上添花)
对于大部分网站上面的内容完全足够了,除非遇到一些检测机制比较严苛的,那么就需要加入人为抖动了,模拟人的操作的方法了。这里不做过多介绍,这里就把百度的参考代码给你们看看,理解一下。
import asyncio
import time
import random
from playwright.async_api import async_playwright
async def main():
async with async_playwright() as p:
browser = await p.chromium.launch(
headless=False,
args=['--disable-blink-features=AutomationControlled']
)
page = await browser.new_page()
await page.set_viewport_size({'width': 1920, 'height': 1080})
await page.add_init_script("""
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
});
""")
await page.goto("https://www.baidu.com")
print(f"当前页面URL: {page.url}")
time.sleep(random.uniform(1,2))
# # 调试:检查元素是否在 DOM 中 / 可见
# dom_exists = await page.evaluate("document.querySelector('#chat-input-area') !== null")
# visible = await page.evaluate("""() => {
# const el = document.querySelector('#chat-input-area');
# if (!el) return 'DOM中不存在';
# const style = getComputedStyle(el);
# const rect = el.getBoundingClientRect();
# return `display:${style.display} vis:${style.visibility} w:${rect.width} h:${rect.height} top:${rect.top} left:${rect.left}`;
# }""")
# print(f"DOM存在:{dom_exists} 元素状态:{visible}")
# 获取输入框 加入人为抖动,,人的操作模拟
input_box = await page.wait_for_selector("#chat-input-area", timeout=10000)
box =await input_box.bounding_box()
print(box)
click_x = box['x']+random.uniform(0,box['width'])
click_y = box['y']+random.uniform(0,box['height'])
await page.mouse.click(click_x,click_y)
filet_list = ["天气"]
for i in filet_list:
for char in i:
await page.keyboard.type(char, delay=random.uniform(50, 200))
await asyncio.sleep(random.uniform(0.1, 0.3))
# 使用 locator 定位搜索按钮(每次获取实时位置)
search_btn = page.locator("#chat-submit-button")
await search_btn.wait_for(timeout=5000)
print(f"点击搜索按钮的组件位置:{await search_btn.bounding_box()}")
# 鼠标分步移动到按钮位置(最后一步重新获取实时位置)
steps = random.randint(5, 10)
start_x, start_y = click_x, click_y
for step in range(1, steps + 1):
progress = step / steps
# 前几步朝大方向移动
box = await search_btn.bounding_box()
target_x = box['x'] + random.uniform(0, box['width'])
target_y = box['y'] + random.uniform(0, box['height'])
curr_x = start_x + (target_x - start_x) * progress + random.uniform(-5, 5)
curr_y = start_y + (target_y - start_y) * progress + random.uniform(-5, 5)
await page.mouse.move(curr_x, curr_y)
await asyncio.sleep(random.uniform(0.03, 0.1))
# 最后再获取一次最新位置并点击
final_box = await search_btn.bounding_box()
final_x = final_box['x'] + random.uniform(0, final_box['width'])
final_y = final_box['y'] + random.uniform(0, final_box['height'])
await page.mouse.move(final_x, final_y)
await asyncio.sleep(random.uniform(0.05, 0.1))
await page.mouse.click(final_x, final_y)
time.sleep(10)
await browser.close()
return 0
if __name__ =='__main__':
asyncio.run(main())

247

被折叠的 条评论
为什么被折叠?



