1.安装依赖 pip install scrapy pip install scrapyd # scrapyd服务 pip install scrapyd-client # scrapyd0client 客户端 pip install spiderkeeper # scrapy可视化部署工具 2.修改scrapyd配置 # 找到scrapyd的配置文件路径 sudo find / -name default_scrapyd.conf
然后 vim 路径文件,修改以下内容:
# 第一项是允许访问的ip,第二项是开放端口(注意云服务器记得开放安全组) bind_address = 0.0.0.0 http_port = 8868启动Scrapyd服务
# 此命令为后台运行进程,并且不输入任何日志 nohup scrapyd >/dev/null 2>&1 &浏览器输入x.x.x.x:8868,测试是否成功
3.使用SpiderKeeper部署爬虫启动SpiderKeeper服务,scrapyd需提前启动
spiderkeeper --server=http://x.x.x.x:8868测试是否成功,浏览器访问x.x.x.x:5000 默认端口为5000,默认账号密码皆为admin,可在依赖路径下的config.py文件中更改(/software/anaconda3/lib/python3.7/site-packages/SpiderKeeper)
修改爬虫项目中的scrapy.cfg文件配置
在你的scrapy爬虫项目下执行命令scrapyd-deploy --build-egg output.egg
scrapyd-deploy --build-egg output.egg这里可能遇到问题:No module named ‘scrapy.util.http’ 这是由于底层scrapyd-deploy的模块scrapy.utils.http已经弃用,建议更新为w3lib.http替代,进入该路径,编辑为以下内容: 重新执行命令,如果成功,会出现以下内容:
将output.egg文件下载到本地
在SpiderKeeper上创建项目,点击deploy
上传之前下载到本地的output.egg,然后submit
点击Periodic Jobs设置定时任务
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。 |
标签: #Scrapy #定时任务 #1安装依赖pip #install #scrapypip #scrapyd #scrapyd服务pip