scrapy框架基本使用_KhyronLu

大大的周 02-07 5101

scrapy框架创建一个scrapy工程

step 1.创建一个工程先cd到指定目录 eg:cd day4

step 2.创建工程

scrapy startproject xxxPro

step 3.cd进入子目录

cd xxxPro

step 4.在spiders子目录中创建一个爬虫文件

scrapy genspider spiderName ·

step 5 执行工程

scrapy crawl spiderName setting 文件的修改 LOG_LEVEL = 'ERROR' User-Agent = '' ROBOTSTXT_OBEY = True -> ROBOTSTXT_OBEY = False scrapy 中xpath使用方法

eg:

div.xpath('./div[1]/a[2]/h2/text()')[0].extract() .extract()要加进去不然得到的是一个列表而不是文本 scrapy 中终端指令存储文件的方法 scrapy crawl xxx -o FilePath(scrapy crawl qiubai -o ./qiubai.csv) 终端存储文件的缺点

文本的类型只可以为：‘json’,‘jsonlines’,‘jl’,‘csv’,‘xml’

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，会注明原创字样,如未注明都非原创，如有侵权请联系删除！；3.作者投稿可能会经我们编辑修改或补充；4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签： #scrapy框架基本使用 #1创建一个工程 #先cd到指定目录 #egcd #day4step #2创建工程scrapy #startproject

上一篇 【Web漏洞扫描这件事】爬虫2-scrapy框架_Web3Ao

下一篇 python爬虫遇到的坑3——关于scrapy中的URL_qq_43654105

发表评论