0%

scrapy创建项目和spider

scrapy创建项目和spider

每次创建scrapy项目 都忘记命令 在次记录下

创建项目
1
scrapy startproject GitSpider
创建spider
1
scrapy genspider pdf https://github.com/itdevbooks/pdf
启动scrapy
1
scrapy crawl pdf
setting配置文件
1
2
3
4
5
6
7
8
ROBOTSTXT_OBEY = False:ROBOTSTXT是网站上的爬虫协议,即在ROBOTS.txt文件中的网站数据不允许爬取,在此我们直接不遵守协议。
CONCURRENT_REQUESTS = 1:同时发起的请求数量,影响到爬虫的速度,爬取速度越快(也受其它很多参数影响),所需IP代理池越大,不然容易导致IP被封。
DOWNLOAD_DELAY = 2:每次请求后,停留的时间,如果不需要,直接注释掉即可。
DOWNLOADER_MIDDLEWARES:启用下载中间件,如果没有自己实现的中间件,可以直接注释掉。
ITEM_PIPELINES:管道配置,同4/
DOWNLOAD_TIMEOUT:可选参数,设置网页请求的超时时间/
RETRY_ENABLED = True:可选启用超时链接重试。
RETRY_TIMES = 4:重试次数。
start_requests

在spider中重写start_requests方法可以更改header 默认发送post请求等
xpath部分语法

1
2
extract() 获取标签的内容
extract_frist()