前言
综述:A Review on Rumour Prediction and Veracity Assessment in Online Social Network
一、介绍
1.1 谣言的定义
文章中给出了很多谣言的定义,
- The authors of (Liang, He, Xu, Chen, & Zeng, 2015) define rumour as the item of
information that is deemed false(将谣言定义为虚假的言论) - many of them defined rumours as the unverified information at the time of posting (Z. Yang, Wang, Zhang, Zhang, & Zhang, 2015(但是更多的人将谣言定义为在发布时未经证实的言论)
- 下表给出了具体的一些论文的定义
本文使用的谣言定义如下:
谣言——在发布时未经证实的言论
1.2 谣言检测的重要性
- 目前在全球范围内对于谣言的关注度一直很高
( https://trends.google.com/trends/explore?date=today%205-y&q=%2Fm%2F01lp7x,Fake%20news可以实时检测到相关关键词在谷歌上的搜索热度,我们可以通过“谣言”关键词来实时关注谣言的关注度) - 网络互联的出现导致了高风险,如谣言,病毒给社会带来有害影响。
- 虚假信息在情感上影响公众的情绪。
1.3 A General model of Rumor Detection and Veracity Assessment (谣言检测和真实性评估的一般模型)
二、从前的工作
列举了一些之前的review并标识其优缺点
三 数据收集
3.1Access to Social Media Data 获取媒体数据的方法
总结了三种主要的数据收集方法,分别是
- 通过API
- https://dev.twitter.com/docs (看介绍应该是有一定的免费额度)
- http://open.weibo.com/wiki/API%E6%96%87%E6%A1%A3/en. (商业接口,需要花钱买数据)
- https://developers.facebook.com/docs(没找到具体的接口在哪)
2.通过报废的网络(python 中的一些库beautiful soap, scrappy,爬虫的框架)
3.通过网络驱动器(Selenium网络驱动器 网络爬虫使用的一种框架)
(抓取应该是原始数据,我们应该是不能使用)
3.2 State-of-the-Art Data Collection Approaches 目前最新的论文的数据收集方法及内容
用表格列举了目前最新的优秀论文的数据集的信息
这里只截取了一部分,文章中大概列举了三十篇左右的论文的数据集信息
下图列举了收集数据时需要考虑的各个因素——检测模型、检测级别、检测平台、检测事件
四、 Features Used for Rumor Analysis 用于谣言分析的特征
用于谣言分析的特征大体上分为15类(Message-based, User-based, Topic-based,
Propagation-based, Content-based, Network-based, Twitter-based, Linguistic, Temporal, User-
behavioral, Diffusion, Structural, Social, Visual and Statistical Features,基于信息、基于用户、基于主题、基于传播、基于内容、基于网络、基于Twitter、语言、时间、用户行为、扩散、结构、社会、视觉和统计特征)
然后依次列举l了一些论文使用的特征,其中F2是基于内容,F5是基于用户信息,我们可以观察到采用这两个特征的论文较多,其次是F8基于语言(Linguistic based),F9基于时间(这15个特征有些部分是重合的,分的不是很清楚,文中有一个表详细的写出了基于语言都包括什么方面,基于时间是包括什么方面)
五、Rumor Analysis Approaches for Multimedia Data (用于多媒体数据的谣言检测方法)
1.Manipulated Images 处理过的图像
- copy more 剪切图像的一个或多个部分并粘贴到同一图像的其他部分。
- forgery 伪造 人工合成一些误导性的图片
- splicing 在拼接技术中,剪切图像的某些部分并将其添加到其他图像中
2.Text Additive 文本添加 在图片上填加一些文字或者给图片配上文字,而不去更改原始图像的其他地方
5.1基于文本进行谣言检测和谣言真实性分析
下表介绍了一些基于文本检测的谣言检测、谣言真实性分析的方法和其具体表现
然后介绍了一些文章的重要发现
5.2 基于图像的谣言检测
下表列出了一些对于图像检测的方法
六、Services and tools used for rumor analysis: application perspective
七、研究的制约因素
7.1 Analysis phase: data-collection
1、平台涵盖面较窄,多数论文使用的是Twitter 其他平台的数据使用较少,而不同的平台有各自的特征,例如人们在微博上发布的帖子倾向于披露更多关于自己的个人信息,并且更积极地回应他人,而在twitter上发布的话题更多地与行业和公司相关
2、数据集不足,缺少公开的大型数据集,多模态数据集尤其如此,统计测试将无法预测数据集中的重要关系,而在更大样本量下进行的研究可能会产生更准确的结果。
7.2 Analysis phase: feature engineering
1、本研究中考虑的特征基于文本和图像数据。这项研究不包括用于谣言分析的音频和视频方面,可以进一步探讨。
八、Conclusion and future directions
1、目前有一些文字谣言的检测工具,但是目前对于多媒体数据(图片、视频、音频)是没有相关的检测工具的
2、有人利用人们对于某件事的关注,谎称是某部门某组织的人发邮件欺骗普通人,对于这方面的研究仍有待研究
3、对于信用评估和真实性评估仍旧存在一些挑战
- 由于复杂的网络,很难找到研究可信度的有用资源。
- 用户行为、偏好和环境等各种因素持续影响用户的可信度
- 社交网络平台上正在进行大量恶意和垃圾邮件活动,这导致使用一些自动化软件或通过使用第三方服务来提高用户的知名度。
- 识别从Twitter收集的谣言推文的一个挑战是,很难通过输入查询直接检索谣言的内容。
- 由于资源方面的问题,例如缺乏公开可用的数据集,许多研究人员受到限制。
未来发展方向
- 为了检测在线社交网络中的谣言传播者,Castillo等人(2011年)观察到,可以通过将用户属性等信息集成到结构神经模型中来进一步增强工作。
- 未来的工作可以通过探索更关键的因素来扩展(Agichtein等人,2008年),这些因素有助于确定主题是否可信。
- 此前,许多作者利用谣言揭穿网站(关于.com、城市传奇等)有效地检索谣言实例,并且观察到识别新出现的谣言是一项具有挑战性的任务。根据Qazvinian等人(2011年)的研究,可以通过确定给定的趋势话题是否是谣言来进一步加强这项工作。
- 研究发现,除了Twitter,其他社交媒体平台在数据收集方面的探索较少。未来的工作可以通过包括其他社交媒体平台和实验资源来加强。
- 根据Floos(2016),可以通过扩展数据集来增强工作,以获得更精确的结果,并使用不同的配置进行实验。
- Song et al.(2018)中有报道称,对于早期谣言检测,除了微博上的转发信息,还可以包含其他重要信息,如出版商简介和传播结构,这也是未来的发展方向之一。
- 根据Nguyen(2017)的说法,有必要改进基于神经网络的谣言检测方法的质量,利用各种来源,而不仅仅是文本内容。
- 按照Ardizzone等人(2015)的说法,为了恢复一些丢失的匹配,如填充三角形之间的空洞,可以开发一些后处理技术。这也将有助于提高方法的召回率