irpas技术客

scrapy的初始化的一些设定_ragerabbitr_scrapy 初始化

网络投稿 2459

工欲善其事必先利其器,scrapy工程创建好以后,需要简单设定几个参数,来开启使用

第一个:

源文件下的allowed_domains这个变量需要注释掉,这个变量用来限定哪些进行请求,不在列表中的不进行请求,所以要注释掉,代表对请求不做限制

第二个:

setting.py文件中的ROBOTSTXT_OBEY = True改为ROBOTSTXT_OBEY =? False,

setting.py是scrapy的设置文件,ROBOTSTXT_OBEY参数是确定是否遵守网站的robots协议,建议自学的时候改为False

第三个:

当我们运行一个工程,不想出现如下的运行日志,可以在setting.py文件中添加LOG_LEVEL='ERROR'参数,这样,在执行工程的时候就不会出现运行日志,只会在程序错误的时候打印错误的信息。(注意这个参数是手动写入的)

第四个:

scrapy中的请求头的伪装,用的就是setting.py这个文件中参数USER_AGENT,要取消掉注释,找你的请求头内容拷贝进去。

如何找请求头内容:例如360极速浏览器,打开任何以网页,F12,弹出的找到网络,找到XHR,在名称下面随便点一个文件,在标头下拉,请求标头下找user-agent后面的内容就是。

?

后记:后面在学习有什么要初始化的参数,会持续更新。。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #Scrapy #初始化 #scrapy的初始化的一些设定