糖尿病康复 > python 爬虫框架scrapy优势_Python 爬虫框架Scrapy 简单介绍

python 爬虫框架scrapy优势_Python 爬虫框架Scrapy 简单介绍

时间：2019-04-23 05:21:36

Scrapy 简介

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

Scrapy 使用了 Twisted 异步网络框架来处理网络通讯，结构清晰明了，并且包含了各种中间件接口，可以灵活的完成各种需求。

安装

Scrapy 是使用Python开发，属于Python的第三方包。它的安装和其他三方包没什么区别。当前Scrapy 最新版本为

1.5，支持python2.7 和python3.4+版本的python。

Linux/Mac

在linux 和 Mac 系统下，可使用 pip安装。

pip install scrapy

windows

在windows上安装的话，需要按照的依赖包比较多。官方建议直接使用Anaconda或Miniconda，通过conda-forge包来安装，这样可以解决各种因为window缺少包而引起的问题。

conda install -c conda-forge scrapy

架构介绍

Scrapy中的数据流由执行引擎控制，其过程如下:

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。引擎向调度器请求下一个要爬取的URL。调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。Scrapy 架构中各组件大致功能如下：

Scrapy 引擎引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。

调度器(Scheduler)调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

下载器(Downloader)下载器负责获取页面数据并提供给引擎，而后提供给spider。

SpidersSpider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。更多内容请看 Spiders 。

Item PipelineItem Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。更多内容查看 Item Pipeline 。

下载器中间件(Downloader middlewares)下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

Spider中间件(Spider middlewares)Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

各组件功能简单可总结如下，大多数情况下我们只需要定义其中的

Spider

和

ItemPipline

模块即可需求。

Scrapy 基本使用

我们已经把scrapy安装好了，并了解了它的基本架构和数据流程。接下来，我们使用scrapy来改写之前的爬虫项目，来熟悉它的各组件的使用方法。

第一步，创建项目

scrapy 提供了一些命令行工具，可直接生成项目代码。我们可直接使用如下命令来生成项目代码。

scrapy startproject v6_scrapy

会生成如下代码：

scrapy.cfg 项目部署文件v6_scrapy/spiders 爬虫Spiders模块存放目录v6_scrapy/items.py 项目中的item文件v6_scrapy/pipelines.py 项目中的Pipelines文件v6_scrapy/settings.py 项目中的配置文件

第二步，编写Spider

在sipders目录中，添加我们的爬虫文件

toutiao_spider.py

，内容如下：

爬虫模块包含一个爬虫类，该类负责爬取网页的内容，并解析返回的html内容，从中提取我们需要的数据。爬虫类继承

scrapy.Spider

类，有以下截个属性和方法：

namespider 的名字，用于区分爬虫类。start_urlsspider 启动时，进行爬取的入口url列表。当没有制定特定的URL时，spider将从该列表中开始进行爬取。因此，第一个被获取到的页面的URL将是该列表之一。后续的URL将会从获取到的数据中提取。parse当response没有指定回调函数时，该方法是Scrapy处理下载的response的默认方法。负责处理response并返回处理的数据以及跟进的URL。 Spider 对其他的Request的回调函数也有相同的要求。在完成之后，执行如下代码启动爬虫：

scrapy crawl toutiao

会看到我们需要抓取的东西被打印出来。

大家注意到代码中有个

xpath()

的用法，这是scrapy自己的一套数据提取机制，称为

selector

，他们通过特定的XPath和CSS表达式来查询和提取html中的数据。

Selector 对象主要有4种方法：

xpath(query)传入XPath表达式，返回该表达式所对应的多有节点的selector list 列表。css(query)传入CSSextrac()序列化该节点为Unicode字符串并返回list列表。re(regex)根据传入的正则表达式提取数据，返回Unicode字符串列表。使用如下：

第三步，定义item

scrapy 使用Item类来结构化数据，以方便对数据的操作。Item 类是一个简单的容器，用来暂存被抓取到的数据，它提供了类似字典的API操作，很多操作类似字典。它需要继承自

scrapy.Item