0
点赞
收藏
分享

微信扫一扫

Scrapy爬虫框架 -- 命令持久化存储与管道持久化存储

小禹说财 2023-03-30 阅读 62

一、目标地址

start_urls = ["http://wwwXXXXcn/list.htm"]

二、要爬取的内容

Scrapy爬虫框架 -- 命令持久化存储与管道持久化存储_html

三、代码实现

1、复制所有标题的xpath

Scrapy爬虫框架 -- 命令持久化存储与管道持久化存储_html_02

标题列表=response.xpath('/html/body/div[3]/div[1]/div[1]/ul/li')

2、从获取的列表再获取标题和浏览量

Scrapy爬虫框架 -- 命令持久化存储与管道持久化存储_代码实现_03

for i in 标题列表:
//第一种方法
    标题=i.xpath('./b/a/text()')[0]
    print(标题.extract())
//第二种方法
    浏览量=i.xpath('span/text()')
    print(浏览量.extract_first())

3、运行该爬虫

scrapy crawl pachong

4、运行结果

Scrapy爬虫框架 -- 命令持久化存储与管道持久化存储_代码实现_04


举报

相关推荐

0 条评论