简介
selenium本身是自动化测试框架,只是在爬虫领域更能够显示出其一把梭的威力,所有网站比如淘宝,微博等必须登录状态才能访问页面,对数据进行抓取时,逆向分析js将是一条不归路,而自动化测试框架selenium完全模拟人的行为模式,对网站按钮的点击,元素的获取,内容文本的输入有着得天独厚的优势。不过相对于逆向加密参数执行的爬虫程序来说,selenium还是太过效率低下了,常规套路一般是通过selenium拿到cookie或者token后,再通过爬虫程序去抓取页面,事半功倍。
Alimama实战
以阿里妈妈后台为例,通过分析我们拿到了请求json来自于https://pub.alimama.com/campaign/joinedSpecialCampaigns.json?toPage=1&status=2&perPageSize=40
不过单独访问该页面,会将我们地址重定向到登录界面,这种网站就必须我们登录再发起请求抓取数据了。

模拟登录
该登录页面是淘宝的统一登录框架,右键重新加载时抓包拿到框架地址,去除无用参数拿到原始地址https://login.taobao.com/member/login.jhtml?style=mini&newMini2=true&from=alimama,避免其他请求干扰我
本文介绍了如何使用selenium进行模拟登录,以获取阿里妈妈和腾讯的cookie。首先介绍了selenium在爬虫领域的应用,然后通过实战演示了在Alimama和Tencent的登录过程,包括账户密码输入、滑块验证、cookie保存等步骤。同时,文章还提到了如何处理selenium的特征检测问题,以及一些常用的操作如元素查找、鼠标操作等。
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



