scrapy创建项目和spider

每次创建scrapy项目都忘记命令在次记录下

创建项目

1	scrapy startproject GitSpider

创建spider

1	scrapy genspider pdf https://github.com/itdevbooks/pdf

启动scrapy

1	scrapy crawl pdf

setting配置文件

ROBOTSTXT_OBEY = False：ROBOTSTXT是网站上的爬虫协议，即在ROBOTS.txt文件中的网站数据不允许爬取，在此我们直接不遵守协议。
CONCURRENT_REQUESTS = 1：同时发起的请求数量，影响到爬虫的速度，爬取速度越快（也受其它很多参数影响），所需IP代理池越大，不然容易导致IP被封。
DOWNLOAD_DELAY = 2：每次请求后，停留的时间，如果不需要，直接注释掉即可。
DOWNLOADER_MIDDLEWARES：启用下载中间件，如果没有自己实现的中间件，可以直接注释掉。
ITEM_PIPELINES：管道配置，同4/
DOWNLOAD_TIMEOUT：可选参数，设置网页请求的超时时间/
RETRY_ENABLED = True：可选启用超时链接重试。
RETRY_TIMES = 4：重试次数。

start_requests

在spider中重写start_requests方法可以更改header 默认发送post请求等
xpath部分语法

1 2	extract() 获取标签的内容 extract_frist()