VCR库编写爬虫程序-CFANZ编程社区

VCR库编写爬虫程序

VCR库编写爬虫程序_html

VCR库编写爬虫程序

VCR库编写一个爬虫程序来爬取图片，代码如下所示：

require 'vcr'
require 'open-uri'

# 使用VCR库录制一次HTTP请求
VCR.use_cassette('vip_crawler') do
  # 设置主机和端口
  proxy_host = ''
  proxy_port = ''
  # 创建一个HTT理对象
  proxy = URI.parse("http://#{proxy_host}:#{proxy_port}")
  # 使用对象打开网页
  response = open("https:///", proxy: proxy)
  # 获取网页内容
  html = response.read
  # 使用正则表达式匹配图片链接
  image_links = html.scan(/<img.*src=['"]([^'"]+)[\s>]/i)
  # 遍历所有图片链接，下载图片
  image_links.each do |link|
    image_url = link[0]
    File.open(image_url, 'wb') do |file|
      file.write(open(image_url).read)
    end
  end
end

首先使用VCR库录制一次HTTP请求，然后设置主机和端口，创建一个HTTP对象，象打开网页，获取网页内容，使用正则表达式匹配图片链接，遍历所有图片链接，下载图片。