0
点赞
收藏
分享

微信扫一扫

爬虫界的君子协议——Robots.txt

芷兮离离 2022-03-26 阅读 60
python

爬虫界的君子协议——Robots.txt

  • Robots.txt统一小写)是一种存放于网站根目录下的ASCII编码的文本文件
  • 用来告告诉该协议对哪些爬虫生效,哪些网页可以被这些爬虫爬取,哪些不可以
  • 该协议有三个属性:
    1. Uer-agent: 声明对哪些爬虫有效
    2. Disallow :声明哪些网页不可爬
    3. Allow:声明哪些网页可爬,比Disallow优先级高

案例:

User-agent: *
Disallow: /
Allow: /public/

对所有爬虫有效,不允许抓取所有页面,但可以抓取 public 目录

User-agent: Baiduspider
Disallow: 

对百度爬虫有效,允许抓取所有页面

举报

相关推荐

0 条评论