我自己很怂,代码我就不公布了,我把自己核心笔记拿过来,如果有问题可以留言,我会回答
- 拼多多 商店 抓取。经过 一些分析,初步知道。拼多多,没有类似于美团,淘宝这样的网站设计。拼多多还是注重于 移动平台,这是一个趋势,意味着爬虫会越来越难了。比如 请求不是常见的get或者post


- 在分类里爬取,是无法获取完整的数据。个人觉得就像是前门和后门一样,分类里大概十几万的商品数据,商铺去重以后就剩下几千个了,所以我是没办法行了
- 在搜索里找,就像拿了钥匙开门,这就需要登入了,能拿到所有的数据。但是URL是更换的,只能访问两次,是js加载

-
最主要的是有两个响应,options和get。这里没研究
- 一次响应59个值,无限滑动的知道最后一个值,取代了分页,也就是说这是ajax加载的。

- 一开始自己不会弄的时候,就是拿page=1或者2,一直类推。size=50或者100,一直类推,为什么呢?因为anti_content的原因只能使用两次,每一个URL。对于很多高手来说,定然是不屑于我的说法,很正常
- 这里可以找js加载的方法,生成token,也就是anti_conient。加上python可以运行js代码,这是我后面才知道做的,刚开始弄拼多多的时候我不知道。
- 再有一个因为是登入的原因,意味着这个账号被实时监测,尽管换ip和cookies,也是不可避免的会被验证码处理。换账号模拟登入就是需要截取短信验证码。我用的是selenium取cookies,后面我自己找到了token,就是用app爬取

-
这是我自己取出的店铺ip

- 拼多多的代码相对要少的多,就是token的问题,还有账号模拟登入。


1767

被折叠的 条评论
为什么被折叠?



