Scrapy命令用法

最新推荐文章于 2024-10-18 21:29:14 发布

转载最新推荐文章于 2024-10-18 21:29:14 发布 · 601 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://www.cnblogs.com/tangkaishou/p/10264146.html

Python 专栏收录该内容

8 篇文章

订阅专栏

注意：首先安装好scrapy，pip install scrapy

1、在scrapy中创建一个新的项目：

scrapy startproject myproject

2、在新项目中创建一个新的spider文件：

cd myproject # 切换到项目下

scrapy genspider mydomain mydomain.com

3、全局命令：

startproject
genspider
settings
runspider
shell
fetch
view
version

4、只在项目中使用的命令（局部命令）

crawl
check
list
edit
parse
bench

5、运行spider文件：

scrapy crawl <spider>

5.1 运行spider文件不显示日志

scrapy crawl <spider> --nolog

6.检查spider文件有无语法错误：

scrapy check

7.列出spider路径下的spider文件：

scrapy list

8.编辑spider文件：

scrapy edit <spider>

相当于打开vim模式，实际并不好用，在IDE中编辑更为合适。

9.将网页内容下载下来，然后在终端打印当前返回的内容，相当于 request 和 urllib 方法：

scrapy fetch <url>

10.将网页内容保存下来，并在浏览器中打开当前网页内容，直观呈现要爬取网页的内容:　

scrapy view <url>

11.打开 scrapy 显示台，类似ipython，可以用来做测试：

scrapy shell [url]

12.输出格式化内容：

scrapy parse <url> [options]

13.返回系统设置信息：

scrapy settings [options]
# 例如：
scrapy settings --get BOT_NAME
scrapybot

14.运行spider：

scrapy runspider <spider_file.py>

15.显示scrapy版本：

scrapy version [-v]  # 后面加 -v 可以显示scrapy依赖库的版本

16.测试电脑当前爬取速度性能：

scrapy bench

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。