1.项目
小红书爬虫
2.介绍
该爬虫基于selenium实现,实现对小红书笔记摘要、笔记详情和用户信息的爬取,并保存为csv文件
3.环境准备
- 请检查selenium和pandas是否安装
pip install selunium
pip install pandas
## 若是安装selunium 报如下的错
# ERROR: Could not find a version that satisfies the requirement selunium (from versions: none)
# ERROR: No matching distribution found for selunium
# 则采用下面的语句安装,修改安装源为清华安装源
# pip install --index https://mirrors.ustc.edu.cn/pypi/web/simple/ selenium
- 创建edge浏览器的快捷方式,并拷贝到该目录下。Edge浏览器一般在这个目录(`C:\Program Files (x86)\Microsoft\Edge\Application
`)下可找到,创建msedge.ext的快捷方式即可 - 下载浏览器对应版本的selunium驱动,具体方法见使用 WebDriver 自动执行 Microsoft Edge - Microsoft Edge Development | Microsoft Learn ,将驱动的压缩文件解压到该目录下
- 创建一个名为user_data的文件夹
执行完以上操作,你的文件目录应当包含一个edgedriver_win64的文件夹、一个名为user_data的文件夹、一个名为msedge.exe的快捷方式,以及clone下来的其他文件
3.1 下载 selunium 驱动
若要开始编写自动测试,请确保安装的 Microsoft Edge WebDriver 版本与浏览器版本匹配,如下所示:
- 转到
edge://settings/help
并记下你的 Microsoft Edge 版本:
- 转到 Microsoft Edge WebDriver。
- 在页面 的“获取最新版本 ”部分中,选择与 Microsoft Edge 版本号匹配的通道中的平台:
- 下载完成后,将
msedgedriver
可执行文件提取到首选位置。 将可执行文件所在的文件夹添加到你的PATH
环境变量。
必须安装浏览器驱动程序 (Microsoft Edge WebDriver) 和 WebDriver 测试框架 (Selenium WebDriver) ,如下面的 选择 WebDriver 测试框架 中所述。 这些是单独的组件。
启动
- 点击run_edge.cmd,浏览器应该会启动。你可以手动关闭Edge浏览器的一些弹窗,但请不要手动访问其他网页。
- 在当前目录下执行
python xhs.py
- 根据提示操作即可,完成后会在目录下生成三个csv文件,可用excel打开。
结论: 两小时已结束,本次试验失败,无法跳过小红书登录接口。初步估计是接口有变动,需要再寻方法
但 selenium 可以自动模拟浏览器运行,是成功的。后期有时间再次模拟