Python爬虫与信息获取
1.简单的信息获取(需要熟练掌握request库)
代码如下(Python3.6.1)
import requests
>>>r=requests.get("https://item.jd.com/4120323.html")
>>> r.status_code
>>> r.encoding
>>> r.text[:1000]
完整代码:import requests
url="https://item.jd.com/4120323.html"
try:
r=requests.get(url)
r.raise_for_status()
r.enconding=r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败”)
本文介绍了使用Python进行网络信息获取的基础,包括熟练运用requests库进行网页请求,通过status_code和encoding处理响应,以及对网页内容的截取。还涉及了搜索引擎爬取和网络图片的爬取等进阶话题,最后提到了IP地址归属地的自动查询功能。
&spm=1001.2101.3001.5002&articleId=77870762&d=1&t=3&u=a9765ffe59534c6cbadb4532f52026e3)
1167

被折叠的 条评论
为什么被折叠?



