irpas技术客

scrapy框架(1):virtualenv+scrapy 基础操作_Yeexxxx___

网络 2974

文章目录 一、爬虫必备基础知识1、技术选型:scrapy vs requests+beautifulsoup2、网页分类常见类型的服务 3、爬虫能做什么爬虫作用 深度优先和广度优先4、字符串编码 二、虚拟环境(按功能隔离环境)1、利用pip,安装virtualenv2、继续安装virtualenvwrapper(是用来管理virtualenv的扩展包,方便虚拟环境管理)3、新建文件夹envs统一存放虚拟环境,配置环境变量4、workon(可以看到所有的虚拟环境)5、基本使用(增删查) 三、创建一个爬虫虚拟环境的完整过程1、创建虚拟环境(mkvirtualenv),并查看其下有什么包(pip list)2、在虚拟环境test下安装scrapy3、在对应工程目录下创建工程4、进入工程,创建第一个爬虫5、Pycharm打开工程,setting修改解释器为刚刚配置的虚拟环境

一、爬虫必备基础知识

scrapy是一个为了爬取网站数据,提高结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存贮历史数据等一系列的程序中。

1、技术选型:scrapy vs requests+beautifulsoup

1、requests和beautifulsoup都是库,scrapy是框架 2、scrapy框架中可以加入requests和beautifulsoup 3、scrapy基于twisted,性能是最大的优势 4、scrapy方便扩展,提供了很多内置的功能 5、scrapy内置的css和xpath selector非常方便,beausoup最大的缺点就是慢

2、网页分类 常见类型的服务

1、静态网页 2、动态网页(刷新局部 阿贾克斯加载) 3、webservice(restapi)

3、爬虫能做什么 爬虫作用

1、搜索引擎——百度、Google、垂直领域搜索引擎 2、推荐引擎——今日头条 3、机器学习的数据样本 4、数据分析(如金融数据分析)、舆情分析等

深度优先和广度优先

1、深度:ABDEICFGH(递归实现 一条路走到底,到尽头后返回上一个结点,再走另一条路) 2、广度:ABCDEFGHI(队列:先进先出)

4、字符串编码

二、虚拟环境(按功能隔离环境)

(徽标+R打开cmd)

1、利用pip,安装virtualenv pip install virtualenv 2、继续安装virtualenvwrapper(是用来管理virtualenv的扩展包,方便虚拟环境管理) pip install virtualenvwrapper-win 3、新建文件夹envs统一存放虚拟环境,配置环境变量

4、workon(可以看到所有的虚拟环境)

可能会出现的报错:‘workon’不是内部或外部命令,也不是可以运行的程序或批处理文件。 此时需要查看的是之前安装的是irtualenvwrapper-win 还是irtualenvwrapper。windows下一定要加-win。重新安装virtualenvwrapper-win 后即可正常运行。

5、基本使用(增删查)

①创建虚拟环境:

mkvirtualenv env_name

②查看所有虚拟环境

lsvirtualenv env_name

③进入虚拟环境

workon env_name

④退出虚拟环境

deactivate

⑤删除虚拟环境

rmvirtualenv env_name 三、创建一个爬虫虚拟环境的完整过程 1、创建虚拟环境(mkvirtualenv),并查看其下有什么包(pip list)

2、在虚拟环境test下安装scrapy

3、在对应工程目录下创建工程 scrapy startproject 工程名

4、进入工程,创建第一个爬虫 scrapy genspider 爬虫名 要爬的网站url

5、Pycharm打开工程,setting修改解释器为刚刚配置的虚拟环境

有帮助的话点个赞再走吧~


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #基础操作 #VS