0
点赞
收藏
分享

微信扫一扫

【四二学堂】认识网络爬虫


认识网络爬虫
数据挖掘领域的研究热点之一:Web的信息采集技术。
Web的HTML网页数据采集技术之一就是:Python实现的网络爬虫。

一、网页结构

【四二学堂】认识网络爬虫_爬虫

HTML DOM树

DOM树结构
文档
节点
元素
文本节点
属性

二、网络爬虫简介
网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫还有另外一些不常使用的名字,如蚂蚁、自动索引、模拟程序或者蠕虫等。
网络爬虫的主要功能是将互联网上的网页、图片、音频、视频等资源下载到本地形成备份。利用网络爬虫技术可实现数据清洗前的数据采集工作。
网络爬虫的工作流程

【四二学堂】认识网络爬虫_网络_02


1)首先选取一部分种子URL

2)将这些URL输入待抓取的URL,解析DNS,得到主机的IP地址,并将URL对应的网页下载下来,存储到已下载网页库中,再将这些URL放进已抓取URL队列。

3)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取的URL队列。

三、示例代码Python使用的版本:Python3.7.7


举报

相关推荐

0 条评论