【四二学堂】认识网络爬虫-CFANZ编程社区

【四二学堂】认识网络爬虫

认识网络爬虫
数据挖掘领域的研究热点之一：Web的信息采集技术。
Web的HTML网页数据采集技术之一就是：Python实现的网络爬虫。

一、网页结构

【四二学堂】认识网络爬虫_爬虫

HTML DOM树

DOM树结构
文档
节点
元素
文本节点
属性

二、网络爬虫简介
网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫还有另外一些不常使用的名字，如蚂蚁、自动索引、模拟程序或者蠕虫等。
网络爬虫的主要功能是将互联网上的网页、图片、音频、视频等资源下载到本地形成备份。利用网络爬虫技术可实现数据清洗前的数据采集工作。
网络爬虫的工作流程

【四二学堂】认识网络爬虫_网络_02