1.为什么将爬虫放到ECS运行
ECS介绍
ECS全名是Elastic Cloud Server
,弹性云服务器,是一种可以随时获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境。
ECS运行爬虫的优势
- 运行环境的优势:ECS自带Python爬虫运行环境,不需要复杂配置;
- 计算资源的优势:不需要占用本地资源,ECS所有的资源都可以用来运行爬虫;
- 反爬虫优势:ECS使用公有IP,IP可更换,防止爬虫被封;
2.实验目的
- 在华为云上购买弹性云主机ECS
- 配置Python环境
- 运行Python爬虫根据输入的关键字爬取图片。
3.实验过程
首先登录华为云官网,在右上角进入控制台
,地区选择为华北-北京一
:
3.1. 华为云创建VPC
虚拟私有云可以为弹性云服务器ECS构建隔离的、用户自主配置和管理的虚拟网络环境。
点开服务列表
,选择网络
-> 虚拟私有云VPC
,进入网络控制台
:
点击创建虚拟私有云
:
基本信息:
子网配置:
自定义配置:
点击右下角的立即创建
即可创建成功:
在网络控制台左侧菜单栏中点击访问控制
的安全组
进入安全组页面,在安全组规则
下选择Sys-default
,然后再点击添加规则
:
3.2. 华为云创建ECS
登录华为云控制台,在所有服务中选择计算>弹性云服务器
,进入云服务器控制台,点击购买弹性云服务器
:
基本信息:
规格:
镜像:
磁盘:
网络配置:
登录方式配置:
其余配置:
确认好配置好,点击立即购买
:
在控制台即可看到ECS列表:
3.3. 远程登录ECS云主机
登录ECS云主机是基于SSH服务的,登录方式有很多种:
- 直接在华为云控制台登录:
- 使用Xshell或putty等SSH远程工具登录;
- 使用Git Bash中的ssh命令登录;
- 使用VS Code中的SSH扩展登录;
- ……
因为这里要编辑代码,所以我使用XShell登录:
3.4.配置云主机Python环境
首先检查一下Python环境:
可以看到系统内置Python2,没有Python3,参考我的另一篇文章进行安装。
安装爬虫运行依赖库:
pip3 install requests
3.5. 运行Python爬虫程序
首先创建一个爬虫运行的目录:
mkdir Python_Image_Downloads
mkdir Python_Image_Downloads/images
创建爬虫文件:
touch ./Python_Image_Downloads/spider.py
使用vim打开并编辑代码,保存。
然后运行爬虫:
python3 spider.py
3.6. 检查图片抓取结果
进入保存图片的目录,查看是否抓取成功: