0

点赞

收藏

分享

Python Flask定时调度疫情大数据爬取全栈项目实战-3.爬虫概述

天使魔鬼 2022-08-14 阅读 80

标签: 常用库正则表达式数据编程语言

爬虫概述

给网站发起请求，并从响应中提取需要的数据的自动化程序

1.发起请求，获取响应

通过http库，对目标网站请求，相当于自己用浏览器打开网站。

常用库：urllib，requests

服务器会返回请求的内容，一般为：html，二进制文件（视频，音频），文档，json字符串

Python Flask定时调度疫情大数据爬取全栈项目实战-3.爬虫概述_正则表达式

2.解析内容

寻找自己需要的信息，就是利用正则表达式或者其他python库提取自己想要的内容。

常用库：re、beautifulsoup4

Python Flask定时调度疫情大数据爬取全栈项目实战-3.爬虫概述_数据_02

3.保存数据

将解析得到的数据持久化到文件或者数据库中

0 条评论

关注