scrapy的初始化的一些设定_ragerabbitr_scrapy 初始化

网络投稿 02-07 2459

工欲善其事必先利其器，scrapy工程创建好以后，需要简单设定几个参数，来开启使用

第一个：

源文件下的allowed_domains这个变量需要注释掉，这个变量用来限定哪些进行请求，不在列表中的不进行请求，所以要注释掉，代表对请求不做限制

第二个：

setting.py文件中的ROBOTSTXT_OBEY = True改为ROBOTSTXT_OBEY =? False，

setting.py是scrapy的设置文件，ROBOTSTXT_OBEY参数是确定是否遵守网站的robots协议，建议自学的时候改为False

第三个：

当我们运行一个工程，不想出现如下的运行日志，可以在setting.py文件中添加LOG_LEVEL='ERROR'参数，这样，在执行工程的时候就不会出现运行日志，只会在程序错误的时候打印错误的信息。（注意这个参数是手动写入的）

第四个：

scrapy中的请求头的伪装，用的就是setting.py这个文件中参数USER_AGENT，要取消掉注释，找你的请求头内容拷贝进去。

如何找请求头内容：例如360极速浏览器，打开任何以网页，F12，弹出的找到网络，找到XHR，在名称下面随便点一个文件，在标头下拉，请求标头下找user-agent后面的内容就是。

后记：后面在学习有什么要初始化的参数，会持续更新。。

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，会注明原创字样,如未注明都非原创，如有侵权请联系删除！；3.作者投稿可能会经我们编辑修改或补充；4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

【scrapy+pymongo+selenium笔记】_GUlGA