0

点赞

收藏

分享

python爬虫获取微博吴某凡微博热评

向上的萝卜白菜 2021-09-28 阅读 78

标签: Python爬虫实战 Python 数据分析 python_爬虫

2021年的七月，最大的瓜应该就是吴某凡了。

娱乐圈爆瓜，早已不是什么新鲜事，但吴某凡这个瓜，尤其的大！

事情是这样的，一位叫“都某竹”的大一女孩在微博爆料，称与吴某凡恋爱期间遭受冷暴力

并称吴某凡存在“选妃”及“诱骗”未成年女孩的行为

随后，又有多位自称和吴某凡有过关系牵扯的女孩纷纷晒出聊天记录，以佐证吴某凡的行径。

事实真是那样的吗？来看看1000000+网友是怎么说的？

目标确定

我们的目标就是这1000000+条吴某凡微博的下面的网友评论

看看他们是如何评价的 ?

需求分析

我们要获取的数据如有

用户id、作者名称、作者座右铭、发帖时间和发帖内容。

首先我们F12打开浏览器开发者模式：

找到我们的目标url:

还有防反爬参数headers

我们用浏览器打开链接，发现这是一个标准的json格式的数据集，

我们所要的数据都在这个json数据里面

所以第一步，先获取这个json格式的数据集。

发送请求

目标很清楚了，接下来上代码：

解析页面

上一步已经成功模拟浏览器获取到了数据。

接下来就是如何在其中提取出我们的目标数据

数据成功获取！

没事咱们来接着分析翻页。先从每一页的url开始。

相信大家一眼就看出来了，从第二页开始，多了一个max_id的参数。

并且这个max_id是跟随页数随机变化的。

那现在问题就变成了如何获取max_id

通过第一页的链接获取到了第二页的max_id，

然后通过第二页的链接获取到第三页max_id

以此类推，获取到全部数据......

之后接着把内容使用openpyxl保存到Excel文件中，如下图所示。

先获取50页数据练练手

获取到的部分数据如下：

可视化展示

0 条评论

向上的萝卜白菜

关注