爬虫界的君子协议——Robots.txt
- Robots.txt统一小写)是一种存放于网站根目录下的ASCII编码的文本文件
- 用来告告诉该协议对哪些爬虫生效,哪些网页可以被这些爬虫爬取,哪些不可以
- 该协议有三个属性:
- Uer-agent: 声明对哪些爬虫有效
- Disallow :声明哪些网页不可爬
- Allow:声明哪些网页可爬,比Disallow优先级高
案例:
User-agent: *
Disallow: /
Allow: /public/
对所有爬虫有效,不允许抓取所有页面,但可以抓取 public 目录
User-agent: Baiduspider
Disallow:
对百度爬虫有效,允许抓取所有页面