0
点赞
收藏
分享

微信扫一扫

python 爬虫框架Scrapy简介

搁了好久的 Scrapy 今天终于要重新拾起来了,顺手完成一个系列~ :本篇仅作为本系列的引子,主要是关于windows系统下 Scrapy的准备工作

1.Scrapy框架结构示意图

【官方示意图】 image.png



【某博主自制示意图】 戳此处直达原文 >>> image.png

2.安装 Scrapy 框架

直接在命令行pip即可,此外还需要安装一个依赖库pypiwin32,也是直接pip即可

pip install scrapy
pip install pypiwin32

3.创建项目和爬虫

  1. 创建项目:
scrapy startproject [爬虫项目名称]
  1. 创建爬虫

注意:要先进入到项目所在的路径,再执行命令

scrapy genspider [爬虫名称] "[爬取的域名]"

4.操作示意图:

image.png image.png

打开pycharm以后即可看到: image.png

5.项目目录结构

目录名称 作用
items.py 用来存放爬虫爬取下来数据的模型
middlewares.py 用来存放各种中间件的文件
pipelines.py 用来将items的模型存储到本地磁盘
settings.py 本爬虫的一些配置信息(比如请求头、多久发送一次请求、ip代理池等)
scrapy.cfg 项目的配置文件
spiders包 以后所有的爬虫都存放在这个里面

本节先告一段落,下一节为scrapy实战演示~

举报

相关推荐

0 条评论