0
点赞
收藏
分享

微信扫一扫

python爬虫获取微博吴某凡微博热评

2021年的七月,最大的瓜应该就是吴某凡了。

娱乐圈爆瓜,早已不是什么新鲜事,但吴某凡这个瓜,尤其的大!

事情是这样的,一位叫“都某竹”的大一女孩在微博爆料,称与吴某凡恋爱期间遭受冷暴力

并称吴某凡存在“选妃”及“诱骗”未成年女孩的行为

随后,又有多位自称和吴某凡有过关系牵扯的女孩纷纷晒出聊天记录,以佐证吴某凡的行径。

事实真是那样的吗?来看看1000000+网友是怎么说的?

目标确定

我们的目标就是这1000000+条吴某凡微博的下面的网友评论

看看他们是如何评价的 ?

需求分析

我们要获取的数据如有

用户id、作者名称、作者座右铭、发帖时间和发帖内容。

首先我们F12打开浏览器开发者模式:

找到我们的目标url:

还有防反爬参数headers

我们用浏览器打开链接,发现这是一个标准的json格式的数据集,

我们所要的数据都在这个json数据里面

所以第一步,先获取这个json格式的数据集。

发送请求

目标很清楚了,接下来上代码:

解析页面

上一步已经成功模拟浏览器获取到了数据。

接下来就是如何在其中提取出我们的目标数据

数据成功获取!

没事咱们来接着分析翻页。先从每一页的url开始。

相信大家一眼就看出来了,从第二页开始,多了一个max_id的参数。

并且这个max_id是跟随页数随机变化的。

那现在问题就变成了如何获取max_id

通过第一页的链接获取到了第二页的max_id,

然后通过第二页的链接获取到第三页max_id

以此类推,获取到全部数据......

之后接着把内容使用openpyxl保存到Excel文件中,如下图所示。

先获取50页数据练练手

获取到的部分数据如下:

可视化展示

举报

相关推荐

0 条评论