irpas技术客

Scrapy——爬虫部署、定时任务_Howareyou?_scrapy 定时任务

irpas 5914

1.安装依赖 pip install scrapy pip install scrapyd # scrapyd服务 pip install scrapyd-client # scrapyd0client 客户端 pip install spiderkeeper # scrapy可视化部署工具 2.修改scrapyd配置 # 找到scrapyd的配置文件路径 sudo find / -name default_scrapyd.conf

然后 vim 路径文件,修改以下内容:

# 第一项是允许访问的ip,第二项是开放端口(注意云服务器记得开放安全组) bind_address = 0.0.0.0 http_port = 8868

启动Scrapyd服务

# 此命令为后台运行进程,并且不输入任何日志 nohup scrapyd >/dev/null 2>&1 &

浏览器输入x.x.x.x:8868,测试是否成功

3.使用SpiderKeeper部署爬虫

启动SpiderKeeper服务,scrapyd需提前启动

spiderkeeper --server=http://x.x.x.x:8868

测试是否成功,浏览器访问x.x.x.x:5000 默认端口为5000,默认账号密码皆为admin,可在依赖路径下的config.py文件中更改(/software/anaconda3/lib/python3.7/site-packages/SpiderKeeper)

修改爬虫项目中的scrapy.cfg文件配置

在你的scrapy爬虫项目下执行命令scrapyd-deploy --build-egg output.egg

scrapyd-deploy --build-egg output.egg

这里可能遇到问题:No module named ‘scrapy.util.http’ 这是由于底层scrapyd-deploy的模块scrapy.utils.http已经弃用,建议更新为w3lib.http替代,进入该路径,编辑为以下内容: 重新执行命令,如果成功,会出现以下内容:

将output.egg文件下载到本地

在SpiderKeeper上创建项目,点击deploy

上传之前下载到本地的output.egg,然后submit

点击Periodic Jobs设置定时任务


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #Scrapy #定时任务 #1安装依赖pip #install #scrapypip #scrapyd #scrapyd服务pip