淘宝爬虫实战-CSDN博客

首先这是自己实习的内容，对于读者来说也许你已经是翱翔蓝天，也可能和我一样是个小鸟，那不管如何，请对我的文章多多包容，批示。谢谢

明确自己的思路，这真的很重要

1，淘宝商品的价格，ID，商品的全部图片，是否包邮，标题
2，先获取商品列表URL，构造100页每页44个商品的循环
3，获取第一页的所有商品详情页ID，构建URL
4，详情页里淘宝和天猫的数据个别不一样，需要分别解析，否则会出现空的情况
5，商品名字，商品详情是静态加载，容易获取。个别商品名字有特别标注例如定制两字需要特别剔除
6，商品价格，商品图片，商品是否包邮或者需要邮费多少，满多少部分地区包邮
7，先简单的保存本地，后期保存在数据库
8，反爬虫机制，Cookie，IP，U-A。或者人工打码

就以三星s9为例，毕竟我本身也挺想买的
偶然看见过文章，说是横排，和纵排的URL不一样，取出的数据不含广告在内
因为有广告，所以第一页会有48个，第二页会有44个

先公布在githup找到的一部分代码

    def parse(self, response):
        # print(response.body.decode('utf-8'))
        js = re.findall(r'g_page_config = (.*?)g_srp_loadCss',response.body.decode('utf-8','ignore'),re.S)[0].strip().strip(';')
        item_list = json.loads(js)['mods']['itemlist']['data']['auctions']
        for item in item_list:
            data = TaobaoItem()
            data['title'] = re.sub(r'<span.*?</span>','python',item['title'])
            data['price'] = item['view_price']
            data['fee'] = item['view_fee']
            data['area'] = item['item_loc']
            data['sales'] = item['view_sales']
            data['name'] = item['nick']
            data['isTmall'] = '是' if item['shopcard']['isTmall'] else '否'
            data['detail_url'] = item['detail_url'].strip().strip('/')
            yield data
        url_12 = 'https://s.taobao.com/api?_ksTS=1523179236254_226&callback=jsonp227&ajax=true&m=customized&stats_' \
                 'click=search_radio_all:1&q=python&s=36&imgfile=&initiative_id=staobaoz_20180408&bcoffset=-1' \
                 '&js=1&ie=utf8&rn=d5706a3802513dad625d594a35702a6b'
        yield scrapy.Request(url_12,callback=self.parse_12)