python中的start_在scrapy框架python的start_urls列表中为url构造..._佳丽影像

网络投稿 02-07 4477

我对Scrapy非常陌生,而且之前我没有使用过正则表达式

以下是我的spider.py代码

class ExampleSpider(BaseSpider):

name = "test_code

allowed_domains = ["·"]

start_urls = [

"http://·/bookstore/new/1?filter=bookstore",

"http://·/bookstore/new/2?filter=bookstore",

"http://·/bookstore/new/3?filter=bookstore",

]

def parse(self, response):

hxs = HtmlXPathSelector(response)

现在,如果我们看一下start_urls,则所有三个url都相同,除了它们的整数值2？,3？不同.依此类推,我的意思是根据网站上显示的URL不受限制,我现在可以使用crawlspider并为URL构造正则表达式,如下所示,

from scrapy.contrib.spiders import CrawlSpider, Rule

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

import re

class ExampleSpider(CrawlSpider):

name = 'example.com'

allowed_domains = ['example.com']

start_urls = [

"http://·/bookstore/new/1?filter=bookstore",

"http://·/bookstore/new/2?filter=bookstore",

"http://·/bookstore/new/3?filter=bookstore",

]

rules = (

Rule(SgmlLinkExtractor(allow=(........),))),

)

def parse(self, response):

hxs = HtmlXPathSelector(response)

您能否指导我,如何为上述start_url列表构建抓取蜘蛛规则.

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，会注明原创字样,如未注明都非原创，如有侵权请联系删除！；3.作者投稿可能会经我们编辑修改或补充；4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。