0

点赞

收藏

分享

【四二学堂】Scrapy框架原理

飞空之羽 2023-04-21 阅读 94

标签: python scrapy ide 封装数据 JavaScript 前端开发

Scrapy框架原理

一、框架架构图

【四二学堂】Scrapy框架原理_python

二、Scrapy架构图解析：

Scrapy Engine(引擎):
负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy
Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy
Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

三、Scrapy运行流程：

引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器
下载器把资源下载下来，并封装成应答包(Response)
爬虫解析Response
解析出实体（Item）,则交给实体管道进行进一步的处理
解析出的是链接（URL）,则把URL交给调度器等待抓取
Scrapy框架需要自己手写的东西只有Spider(爬虫)和Item Pipeline（管道）俩个模块，但是对于下载失败的url，scrapy会重新发起请求，只有当调度器中不存在任何request了，整个程序就停止了。

0 条评论

关注