scrapy+selenium遇到重定向的问题

原创已于 2024-11-16 22:11:54 修改 · 878 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#scrapy #selenium #python

收录于

于 2024-11-16 19:03:50 首次发布

一、前言

最近我想爬取一个网站，需要登录才能爬取里面的消息，接着我就使用了selenium登录，获取cookie，接着交给scrapy.Request请求，然后发现他还是重定向到了登录的页面，这个问题困扰了我好久，大概有一周了吧，今天看了一个帖子才解决。

二、解决方案

在函数__init__初始函数里设置self.meta

self.meta = {
        'dont_redirect': True,  # 禁止网页重定向
        'handle_httpstatus_list': [301, 302]  # 对哪些异常返回进行处理
    }

接着我们处理完cookie后，使用scrapy.Request返回cookie和self.meta

yield scrapy.Request(url=self.driver.current_url, callback=self.parse, cookies=self.cookies,meta=self.meta)

类似于这样，这样就可以防止爬取的页面重定向到登录页面。

三、结言

如果这篇文章能帮到你，我很开心为你节约了去除试错的时间，如果还有什么不懂的可以私信我

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

海边️电视机

关注关注

14
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

selenium通过performance log获取状态码，Content-Type，以及重定向路径

robinspada的博客

05-15

1907

selenium的官方不提供获取状态码，Conten-Type，以及重定向路径的方法，并且官方说这些功能将来也不会有。

参与评论您还未登录，请先登录后发表或查看评论

实战避坑：用Playwright+Selenium绕过电商网站反爬虫的5个关键细节

最新发布

weixin_42522148的博客

04-15

1650

本文详细解析了如何利用Playwright和Selenium绕过电商网站反爬虫系统的5个关键技巧，包括浏览器指纹伪装、智能等待策略、鼠标轨迹模拟、验证码处理及分布式架构设计。特别针对淘宝、京东等平台的反爬机制，提供了实战代码示例和优化建议，帮助开发者在合规前提下高效采集电商数据。

selenium自动化的时候网址重定向问题的解决思路

好多可乐的博客

06-16

2904

既然selenium只是通过地址栏里面的域名来写入cookie的，那么我们只需要通过某种方法来中断selenium 的加载使地址栏保持登录后的域名网址即可。但是因为重定向导致domain变了，一直塞不进去，提示“invalid token domain”虽然可以登录成功，但是那个domain毕竟不是我们系统的，所以失败了。这个方式可能可行，但是我找的开发对这块不熟悉，说不确定是否可以实现。，直到获取auth_code之后登录成功，然后再跳回首页。因为我们系统是用企业微信扫码登录的，就输入网址。

关于使用selenium免登陆爬取网页时，自动跳转登录页面从而导致写cookie失败的解决办法

weixin_44634558的博客

01-24

8189

【问题描述】在我想要用selenium写入cookie实现免登录爬取某个网页时，遇到了麻烦。因为这个网站的登录界面和登录后的界面的域名不一样。比如（举例非真实）：登录前的登录界面可能是>>>www.baidu.com/ 登录后的会变化成>>>www.xxbaidu.com/ 这就导致了一个问题，selenium写入cookie时必须先打开这个网页，然后再写入cookie，这样selenium才知道写入的是哪个域名的cookie。而在我想要打开登录后的页面【baidu

selenium URL重定向检查

测试开发小记

11-03

3679

selenium URL重定向检查

利用selenium爬取重定向内容

weixin_33724046的博客

01-18

1680

# -*- coding: UTF-8 -*- from selenium import webdriver from bs4 import BeautifulSoup import time #这里我已经下载了geckodriver放在火狐文件夹，如果放入所需要执行的Python脚本的所在处就不用写这个了 myDriver = webdriver.Firefox(executable_path...

scrapy关于输入了cookies,却还是重定向到了登陆页面的问题

fuace_ada的博客

11-17

868

hello，兄弟们我又来解惑了，这次我遇到的问题与标题所写的一样，我是用selenium获取cookie后传给scrapy处理请求，这几天，因为response会重定向到登录页面，这让我费了一把的头发，东问西问，终于在网上找了许多资料，终于找到了解决的方案。输入了cookies,却还是重定向到了登陆页面，这是因为scrapy为正确处理cookie，需要我们在scrapy中的setting中修改。COOKIES_ENABLED为true,如果能帮到你们我很开心。

scrapy 中爬取时被重定向_彻底搞懂Scrapy的中间件（二）

weixin_39846553的博客

12-19

981

摄影：产品经理产品经理的芦笋在上一篇文章中介绍了下载器中间件的一些简单应用，现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。在中间件中集成Selenium对于一些很麻烦的异步加载页面，手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium和ChromeDriver或者Selenium和PhantomJS来实现渲染网页。这是前面的章节已经讲...

CrawlSpider爬取拉勾网，解决302问题。

来自三食堂麻辣拌的分享

03-26

3090

前言：在慕课上买了个付费视频，里面有一章是讲用CrawlSpider来爬取拉勾网，可能因为视频录的时候比较早，老师没加headers，也没用cookie所有的拉勾的工作的详情页面就全部200了，但是自己动手的时候，怎么都是302，去网上查了查，说是加上cookie和headers就可以了，自己动手试了试还真是成功了，拿出来和大家分享一下 1.Selenium获得登陆的cookie： ...

chatgpt赋能python：Python如何帮助SEO检查错误

aijinglingchat的博客

06-13

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

记一次失败的爬取

anlanmo0960的博客

01-22

134

今天准备用scrapy来爬取拉钩招聘信息,拉钩要等录后才能爬取,所以先写了一个模拟登录的程序,代码如下: # -*- coding: utf-8 -*- import scrapy import json import urllib class Lagou2Spider(scrapy.Spider): name = 'lagou2' allowe...

在Scrapy中集成selenium采集数据

清风专栏

05-13

843

前言 scrapy 是一个很强大的框架，但是在遇到反爬很强的网站时就无能为力了，这时候最好的解决办法就是使用 selenium 控制真实的浏览器去执行网页，然后从浏览器中获取到页面的源代码，之后进行正常的采集流程。 scrapy 是一个非阻塞框架，selenium 是一个阻塞框架，将一个阻塞框架的代码放到非阻塞框架中并不是一个好主意，但是在网站反爬实在太难时也不失为一个比较好的办法。 scrapy 官方并不支持 selenium 集成，但是可以通过第三方包的方式来实现。 scrapy 框架提供了很多

scrapy对接selenium原理超详细解读！！！！

weixin_44457673的博客

09-03

2880

详解下载器中间件常见方法解读1、from_crawler（）方法二级目录三级目录下载器中间件常见方法解读下载器中间件有什么作用: 1:在scheduler（调度器）中调取一个request（请求），发送给Downloader（下载器）之前,我们可以对request（请求）进行修改. 2:在Downloader（下载器）返回response（响应）给spider之前,我们可以对response（响应）进行修改. 下载器中间件的功能十分强大,修改User-Agent,处理重定向,设置代理,失败重试,设置co

Scrapy框架中集成selenium(二)：方法一爬虫重新构造请求方法

weixin_38924500的博客

12-25

650

1.集成selenium 下载中间件的 process_request 方法，它有四种返回值： process_request() should either： return None, return a Response object, return a Request object, or raise IgnoreRequest. 可以返回 None，scrapy 会继续调用其他下载中间件继续处理请求，一般修改代理 IP 或者修改请求头就使用这种方式可以返回 Respons

scrapy爬虫总结

Cool_Pepsi的博客

05-09

2059

目录一. Scarapy1. 概述2. 流程二. 一. Scarapy 1. 概述 Scrapy – Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。 2. 流程二. ...

selenium重定向新窗口

weixin_30677475的博客

05-21

2344

1、跳转新窗口 # 浏览器跳转新窗口后，selenium绑定新窗口 print('页面跳转后重新绑定selenium.') time.sleep(3) search_window = driver.current_window_handle # 此行代码用来定位当前页面 html =driver.page_source print("打印标题") print(driver.t...

Selenium-java 登录后重定向页面（页面跳转后）刷新页面，获取cookie

诗水人间

01-18

3517

chromeDriver是ChromeDriver对象的实例 final String beforeUrl = chromeDriver.getCurrentUrl();// 获取登录前的url地址 while (chromeDriver.getCurrentUrl().equals(beforeUrl)){// 不断的获取地址判断一下，地址有没有变 // 页面没有跳转就让他等待，等待自己重定向到登录后的页面，然后再获取cookie时就是正确的cookie } // 到这里说明页面进行了跳转 //

selenium+httpClient爬取某网站信息，遇到重定向的问题

zz_huster的博客

06-06

1316

根据爬取到的超链接，用httpclient模仿发送查询文章详情的请求时，如果存在302重定向首部可能需要添加referer字段，否则可能会被重定向到登录界面。

python爬虫学习第三十四天

Lz_mj的博客

08-29

346

今天首先继续昨天未完成的selenium部分，主要是重定向问题客户端重定向是在服务器将页面内容发送到浏览器之前，由浏览器执行 JavaScript 完成的页面跳转，而不是服务器完成的跳转。当使用浏览器访问页面的时候，有时很难区分这两种重定向。由于客户端重定向执行很快，加载页面时你甚至感觉不到任何延迟，所以会让你觉得这个重定向就是一个服务器端重定向 我们可以通过selenium

第十八章 python爬虫

黎扶澈的博客

08-02

776

requests、urllib、bs4模块讲解