1、网络爬虫的尺寸:
2、网络爬虫的限制:
(1)来源审查:判断User-agent进行限制
- 检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问;
(2)发布公告:Robots协议
3、Robots协议:网络爬虫排除标准
作用:网络告知网络爬虫那些页面可以抓取,那些不行;
显示:在网站根目录下robots.txt文件;
网络爬虫:自动或者人工识别robot.txt,再进行内容爬取;
约束性:robots协议建议但非约束性,网络爬虫可以不遵守,但存在法律风险;
微信扫一扫
1、网络爬虫的尺寸:
2、网络爬虫的限制:
(1)来源审查:判断User-agent进行限制
(2)发布公告:Robots协议
3、Robots协议:网络爬虫排除标准
作用:网络告知网络爬虫那些页面可以抓取,那些不行;
显示:在网站根目录下robots.txt文件;
网络爬虫:自动或者人工识别robot.txt,再进行内容爬取;
约束性:robots协议建议但非约束性,网络爬虫可以不遵守,但存在法律风险;
相关推荐