水军检测问题整理
摘要
水军问题由来已久,水军检测问题一直非常重要。水军检测问题主要面临的困难包括但不限于:源数据难以获取;水军标定规则太主观;水军检测涉及的特征难以规范化表达等。目前对水军检测的工作以图计算和神经网络训练两种方式为主。我们目前的工作集中在用CNN实现水军的检测。由于水军特征繁杂,涉及了至少图结构处理,自然语言处理,数值处理三个维度,且数据会面临维度缺失等数据不规范的问题,难以直接转换到CNN网络所能识别的输入。基于这个问题,我们提出了PDL算法,将各个维度数据做了有机整理,以二维矩阵的形式输入CNN网络,达到了水军检测的目前可知的最高准确率。
相关工作
Review Graph Based Online Store Review Spammer Detection 率先提出了基于graph 的检测算法,合理利用了用户间,用户店铺间,店铺之间的信息,打破了基于语义分析的垄断地位,提供了新的识别思路。
Graph-based review spammer group detection完全的图分析算法,目标分类是群组分类,深度利用了图论知识,提供了良好的评价指标。特点是:划分群组,给每个群打分,多种评估函数,可以应对不同类型群组,但缺点是图分割算法会划出一些兴趣相同的鱼龙混杂分组,需要优化分割算法
Review Spam Detection by Highlighting Potential Spammers and Diminishing Their Effect 提出了水军的五个特点,分别是爆发性,极端性,欲盖弥彰性,瞬时性,群组性。并基于这五个特点涉及五种特征函数,计算速度快,识别效果较好,但对群体性的识别较差,不容易一网打尽。
我们的算法Picture Detect learning
算法核心思想是,将用户每条评论的各个维度的信息利用分别设计的评分标准进行评分,然后将所有的评分构成该用户该条评论的一个特征向量。为了能够更有效的利用评论时间的属性,我们设置了时间窗,将该用户时间窗范围内的所有特征向量合并成一个二维矩阵。输出则是对这个二维矩阵所涉及的所有评论的统一评价。如此,将对该用户某条评论的评价转化成对该用户某段时间的评论的评价,丰富了判断依据,提高了准确率。
下图给出一个用户在时间窗下面生成的数据:
对某一时刻用户特征在不同数据集下可以做不同的选取。特征的权重也可以做不同的设定。上图是假定各个特征权重均为1.若认为某种特征比较重要,可以人工调高该特征权重。效果如下:
基于我们在yelp 数据集上的实践经验,特征可以做如下选取:
- 用户评分与均值差距,权重:3
- 商店的评分,权重: 3
- 商店的评论数量,权重: 3
- 用户评论数量,权重: 1
- 一天内与该用户评价相同商店的用户数量 权重: 3
- 三天内与该用户评价相同商店的用户数量 权重: 3
- 时间窗设置为7.
数据集处理
数据集来源有yelp公开数据集;从当当网爬取的图书数据集;从Resellerratings 网站上爬取的数据集;从Amazon下载的公开数据集。
由于水军标注问题是个非常主观的问题,我们除了采用人力标注之外,主要采用了多种其他论文的算法进行机器标注,然后将所有标注的均值作为实际标注。标注算法使用了相关工作中提出的三种算法。
参考文献
【1】Ennan Zhai ,Zhenhua Li and Zhenyu Li.Resisting Tag Spam by Leveraging Implicit User Behaviors. In Proceedings of VIdb Endowment,2016,10
【2】Q. Cao, X. Yang, and C. Palow. Uncovering large groups of active malicious accounts in online social networks. In CCS, 2014.
【3】S. A. Golder and B. A. Huberman. Usage patterns of collaborative tagging systems. J. Information Science, 32(2):198–208, 2006.
【4】G. Koutrika, F. A. Effendi, Z. Gyongyi, P. Heymann, and ¨ H. Garcia-Molina. Combating spam in tagging systems. In AIRWeb, 2007.
【5】B. Liu, E. Zhai, H. Sun, Y. Chen, and Z. Chen. Filtering spam in social tagging system with dynamic behavior analysis. In ASONAM, pages 95–100, 2009.
【6】Y. Wang, S. Yao, J. Li, Z. Xia, H. Yan, and J. Xu. ReSpam: A novel reputation based mechanism of defending against tag spam in social computing. In 8th IEEE SOSE, 2014.
【7】Wang Z , Gu S , Zhao X , et al. Graph-based review spammer group detection[J]. Knowledge & Information Systems, 2018, 55(3):571-597
【8】Wang G, Xie S, Liu B, et al. Review Graph Based Online Store Review Spammer Detection[J]. 2011:1242-1247
【9】Keshavarz F, Waheed A A, Rachdi B, et al. Review Spam Detection by Highlighting Potential Spammers and Diminishing Their Effect[J]. 2018, 14(1):54-76.
【10】 E. Choo, T. Yu, M. Chi, “Detecting opinion spammer groups and spam targets through community discovery and sentiment analysis”, Journal of Computer Security, vol. 25, no. 3, pp. 283-318, 2017.
【11】E. Choo, “Analyzing Opinion Spammers’ Network Behavior in Online Review Systems,” 2018 IEEE Fourth International Conference on Big Data Computing Service and Applications (BigDataService), Bamberg, 2018, pp. 270-275.
【12】L. Akoglu R. Chandy C. Faloutsos “Opinion fraud detection in online reviews by network effects” ICWSM vol. 13 pp. 2-11 2013
【13】Dewang R K , Singh A K . State-of-art approaches for review spammer detection: a survey[J]. Journal of Intelligent Information Systems, 2017(8):1-34.