记___拼多多spider

最新推荐文章于 2026-06-18 10:50:59 发布

原创最新推荐文章于 2026-06-18 10:50:59 发布 · 4.8k 阅读

9 ·

本内容遵循CC 4.0 BY-SA版权协议

观察细节是一个艰难的过程同时被 2 个专栏收录

2 篇文章

订阅专栏

体会坚持

2 篇文章

订阅专栏

我自己很怂，代码我就不公布了，我把自己核心笔记拿过来，如果有问题可以留言，我会回答

拼多多商店抓取。经过一些分析，初步知道。拼多多，没有类似于美团，淘宝这样的网站设计。拼多多还是注重于 移动平台，这是一个趋势，意味着爬虫会越来越难了。比如请求不是常见的get或者post
在分类里爬取，是无法获取完整的数据。个人觉得就像是前门和后门一样，分类里大概十几万的商品数据，商铺去重以后就剩下几千个了，所以我是没办法行了
在搜索里找，就像拿了钥匙开门，这就需要登入了，能拿到所有的数据。但是URL是更换的，只能访问两次，是js加载
最主要的是有两个响应，options和get。这里没研究
一次响应59个值，无限滑动的知道最后一个值，取代了分页，也就是说这是ajax加载的。
一开始自己不会弄的时候，就是拿page=1或者2，一直类推。size=50或者100，一直类推，为什么呢？因为anti_content的原因只能使用两次，每一个URL。对于很多高手来说，定然是不屑于我的说法，很正常
这里可以找js加载的方法，生成token，也就是anti_conient。加上python可以运行js代码，这是我后面才知道做的，刚开始弄拼多多的时候我不知道。
再有一个因为是登入的原因，意味着这个账号被实时监测，尽管换ip和cookies，也是不可避免的会被验证码处理。换账号模拟登入就是需要截取短信验证码。我用的是selenium取cookies，后面我自己找到了token，就是用app爬取
这是我自己取出的店铺ip
拼多多的代码相对要少的多，就是token的问题，还有账号模拟登入。