Python网络爬虫与信息提取MOOC 测验4: Python网络爬虫之框架 (第4周)
1、下面哪个不是“网络爬虫与信息提取”相关的技术路线?
A、bs4-re
B、scrapy-bs4
C、requests-bs4-re
D、requests-re
正确答案: A
技术路线至少包含一个爬虫库和一个解析库,bs4和re都是解析库。
2、Requests库的方法与HTTP协议请求方法对应,下面哪个不是Requests库的对应方法?
A.push()
B.get()
C.put()
D.patch()
正确答案: A
3、判断一个网络爬虫应用可行性的最主要因素是什么?
A、技术路线选取
B、Robots协议是否有允许
C、部署代价和经济成本
D、网页条件,即尽量没有JavaScript脚本产生的数据
正确答案: B
Robots协议允许是爬虫能够实施的首要条件。
4、下面哪个不是网络爬虫可能引发的问题?

这篇博客主要介绍了Python网络爬虫的相关技术路线,包括正确的技术组合以及Scrapy框架的组成部分和数据流过程。内容涉及网络爬虫的合法性和可能引发的问题,以及Scrapy中的Spiders、Engine、Scheduler、Downloader和Item Pipelines等关键模块。

3380

被折叠的 条评论
为什么被折叠?



