scrapy创建项目和spider
每次创建scrapy项目 都忘记命令 在次记录下
创建项目
1
| scrapy startproject GitSpider
|
创建spider
1
| scrapy genspider pdf https://github.com/itdevbooks/pdf
|
启动scrapy
setting配置文件
1 2 3 4 5 6 7 8
| ROBOTSTXT_OBEY = False:ROBOTSTXT是网站上的爬虫协议,即在ROBOTS.txt文件中的网站数据不允许爬取,在此我们直接不遵守协议。 CONCURRENT_REQUESTS = 1:同时发起的请求数量,影响到爬虫的速度,爬取速度越快(也受其它很多参数影响),所需IP代理池越大,不然容易导致IP被封。 DOWNLOAD_DELAY = 2:每次请求后,停留的时间,如果不需要,直接注释掉即可。 DOWNLOADER_MIDDLEWARES:启用下载中间件,如果没有自己实现的中间件,可以直接注释掉。 ITEM_PIPELINES:管道配置,同4/ DOWNLOAD_TIMEOUT:可选参数,设置网页请求的超时时间/ RETRY_ENABLED = True:可选启用超时链接重试。 RETRY_TIMES = 4:重试次数。
|
start_requests
在spider中重写start_requests方法可以更改header 默认发送post请求等
xpath部分语法
1 2
| extract() 获取标签的内容 extract_frist()
|