2021年的七月,最大的瓜应该就是吴某凡了。
娱乐圈爆瓜,早已不是什么新鲜事,但吴某凡这个瓜,尤其的大!
事情是这样的,一位叫“都某竹”的大一女孩在微博爆料,称与吴某凡恋爱期间遭受冷暴力
并称吴某凡存在“选妃”及“诱骗”未成年女孩的行为
随后,又有多位自称和吴某凡有过关系牵扯的女孩纷纷晒出聊天记录,以佐证吴某凡的行径。
事实真是那样的吗?来看看1000000+网友是怎么说的?
目标确定
我们的目标就是这1000000+条吴某凡微博的下面的网友评论
看看他们是如何评价的 ?
需求分析
我们要获取的数据如有
用户id、作者名称、作者座右铭、发帖时间和发帖内容。
首先我们F12打开浏览器开发者模式:
找到我们的目标url:
还有防反爬参数headers
我们用浏览器打开链接,发现这是一个标准的json格式的数据集,
我们所要的数据都在这个json数据里面
所以第一步,先获取这个json格式的数据集。
发送请求
目标很清楚了,接下来上代码:
解析页面
上一步已经成功模拟浏览器获取到了数据。
接下来就是如何在其中提取出我们的目标数据
数据成功获取!
没事咱们来接着分析翻页。先从每一页的url开始。
相信大家一眼就看出来了,从第二页开始,多了一个max_id的参数。
并且这个max_id是跟随页数随机变化的。
那现在问题就变成了如何获取max_id
通过第一页的链接获取到了第二页的max_id,
然后通过第二页的链接获取到第三页max_id
以此类推,获取到全部数据......
之后接着把内容使用openpyxl保存到Excel文件中,如下图所示。
先获取50页数据练练手
获取到的部分数据如下:
可视化展示