0
点赞
收藏
分享

微信扫一扫

试验开源项目-小红书爬虫


1.项目

小红书爬虫

2.介绍

该爬虫基于selenium实现,实现对小红书笔记摘要、笔记详情和用户信息的爬取,并保存为csv文件

3.环境准备

  • 请检查selenium和pandas是否安装

pip install selunium
pip install pandas


## 若是安装selunium 报如下的错
# ERROR: Could not find a version that satisfies the requirement selunium (from versions: none)
# ERROR: No matching distribution found for selunium
# 则采用下面的语句安装,修改安装源为清华安装源
# pip install --index https://mirrors.ustc.edu.cn/pypi/web/simple/ selenium

  • 创建edge浏览器的快捷方式,并拷贝到该目录下。Edge浏览器一般在这个目录(`C:\Program Files (x86)\Microsoft\Edge\Application
    `)下可找到,创建msedge.ext的快捷方式即可
  • 下载浏览器对应版本的selunium驱动,具体方法见使用 WebDriver 自动执行 Microsoft Edge - Microsoft Edge Development | Microsoft Learn ,将驱动的压缩文件解压到该目录下
  • 创建一个名为user_data的文件夹

执行完以上操作,你的文件目录应当包含一个edgedriver_win64的文件夹、一个名为user_data的文件夹、一个名为msedge.exe的快捷方式,以及clone下来的其他文件

3.1 下载 selunium 驱动

若要开始编写自动测试,请确保安装的 Microsoft Edge WebDriver 版本与浏览器版本匹配,如下所示:

  1. 转到 edge://settings/help 并记下你的 Microsoft Edge 版本:

 试验开源项目-小红书爬虫_sed

  1. 转到 Microsoft Edge WebDriver。
  2. 在页面 的“获取最新版本 ”部分中,选择与 Microsoft Edge 版本号匹配的通道中的平台:

 试验开源项目-小红书爬虫_快捷方式_02

  1. 下载完成后,将 msedgedriver 可执行文件提取到首选位置。 将可执行文件所在的文件夹添加到你的 PATH 环境变量。

必须安装浏览器驱动程序 (Microsoft Edge WebDriver) 和 WebDriver 测试框架 (Selenium WebDriver) ,如下面的 选择 WebDriver 测试框架 中所述。 这些是单独的组件。


启动

  • 点击run_edge.cmd,浏览器应该会启动。你可以手动关闭Edge浏览器的一些弹窗,但请不要手动访问其他网页。
  • 在当前目录下执行

python xhs.py

  • 根据提示操作即可,完成后会在目录下生成三个csv文件,可用excel打开。


结论: 两小时已结束,本次试验失败,无法跳过小红书登录接口。初步估计是接口有变动,需要再寻方法

但 selenium 可以自动模拟浏览器运行,是成功的。后期有时间再次模拟

举报

相关推荐

0 条评论