python爬虫相关库的安装
1、python安装(3.6版本以上)
下载地址:http://www.python.org
2、安装pycharm(社区版和专业版),社区版是免费的,专业的免费试用1个月
创建项目的方法
3、chrome的安装(可以用360浏览器代替),安装chrome浏览器的驱动(对应相应的版本)
Chrome抓包工具的使用
网页右键检查就可以打开开发者选项
elements:可以帮助分析网页结构,获取数据。网页源代码(从这些代码中提取信息)
console:展示网页打印的信息和错误信息,相当于控制台。
sources:展示网页所有的资源(展示的是个原始的网页),网页加载的所有摁键
network:xhr(ajax请求获取到信息),网络发送的所有请求。
爬虫的简单介绍
爬虫的实际应用:搜索引擎、伯乐在线、惠惠购物助手(chrome浏览器插件)、数据分析、抢票软件等
网络爬虫:模拟人类请求网站的行为
http协议介绍
python写爬虫支持的模块大、支持模块多,相关的http请求和html解释非常丰富。
http协议:HyperText Transfer Protocol超文本传输文件,80端口(https,在http协议次啊添加SSL层,端口443)
url详解Uniform Resource Locator