北理工嵩天Python网络爬虫与信息提取MOOC 测验4: Python网络爬虫之框架 (第4周)

最新推荐文章于 2021-02-05 06:49:42 发布

原创

最新推荐文章于 2021-02-05 06:49:42 发布 · 2.8k 阅读

这篇博客主要介绍了Python网络爬虫的相关技术路线，包括正确的技术组合以及Scrapy框架的组成部分和数据流过程。内容涉及网络爬虫的合法性和可能引发的问题，以及Scrapy中的Spiders、Engine、Scheduler、Downloader和Item Pipelines等关键模块。

Python网络爬虫与信息提取MOOC 测验4: Python网络爬虫之框架 (第4周)

1、下面哪个不是“网络爬虫与信息提取”相关的技术路线？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、bs4-re

B、scrapy-bs4

C、requests-bs4-re

D、requests-re

正确答案： A

技术路线至少包含一个爬虫库和一个解析库，bs4和re都是解析库。

2、Requests库的方法与HTTP协议请求方法对应，下面哪个不是Requests库的对应方法？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A.push()

B.get()

C.put()

D.patch()

正确答案： A

3、判断一个网络爬虫应用可行性的最主要因素是什么？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、技术路线选取

B、Robots协议是否有允许

C、部署代价和经济成本

D、网页条件，即尽量没有JavaScript脚本产生的数据

正确答案： B

Robots协议允许是爬虫能够实施的首要条件。

4、下面哪个不是网络爬虫可能引发的问题？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪

标签

#python