近期使用python的scrapy进行爬虫练习时,使用chrome自带的xpath复制到代码中,匹配的时候总是出现结果为空,查后发现是在html结果中自加tbody 标签。
例如:
#复制出来的xpath
xpath('//*[@id="position"]/div[1]/table/tbody/tr[1]')
#正确的xpth,把tbody去掉,搞定
xpath('//*[@id="position"]/div[1]/table/tr[1]')
本文介绍了一个使用Python Scrapy爬虫时遇到的问题:从Chrome复制XPath选择器后,因额外的tbody标签导致匹配失败。文中提供了正确的XPath表达式,并解释了移除多余标签的方法。
近期使用python的scrapy进行爬虫练习时,使用chrome自带的xpath复制到代码中,匹配的时候总是出现结果为空,查后发现是在html结果中自加tbody 标签。
例如:
#复制出来的xpath
xpath('//*[@id="position"]/div[1]/table/tbody/tr[1]')
#正确的xpth,把tbody去掉,搞定
xpath('//*[@id="position"]/div[1]/table/tr[1]')
1285
2040
1667
4万+

被折叠的 条评论
为什么被折叠?
