irpas技术客

scrapy框架基本使用_KhyronLu

大大的周 5101

scrapy框架 创建一个scrapy工程

step 1.创建一个工程 先cd到指定目录 eg:cd day4

step 2.创建工程

scrapy startproject xxxPro

step 3.cd进入子目录

cd xxxPro

step 4.在spiders子目录中创建一个爬虫文件

scrapy genspider spiderName ·

step 5 执行工程

scrapy crawl spiderName setting 文件的修改 LOG_LEVEL = 'ERROR' User-Agent = '' ROBOTSTXT_OBEY = True -> ROBOTSTXT_OBEY = False scrapy 中xpath使用方法

eg:

div.xpath('./div[1]/a[2]/h2/text()')[0].extract() .extract()要加进去 不然得到的是一个列表而不是文本 scrapy 中终端指令存储文件的方法 scrapy crawl xxx -o FilePath(scrapy crawl qiubai -o ./qiubai.csv) 终端存储文件的缺点

文本的类型只可以为:‘json’,‘jsonlines’,‘jl’,‘csv’,‘xml’


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #scrapy框架基本使用 #1创建一个工程 #先cd到指定目录 #egcd #day4step #2创建工程scrapy #startproject