可解释推荐系统研究综述
文献来源
- Explainable Recommendation: A Survey and
New Perspectives
简介
解释的各种类型
可解释推荐模型
衡量标准
在引入可解释的过程中牺牲一定的性能是可以接受的,但倘若可解释模型取得了更高的性能那就更好了。因此,可解释推荐模型一般从两个方面进行评价:对推荐性能的评价(预测精度和Top-N推荐)和对推荐解释的评价(说服力和有效性)。
推荐性能的评价
对推荐性能的评价和对其他个性化推荐模型的评价方法一致,既有训练集/测试集的离线评价和分析用户的真实行为的在线评价。
离线评价
评分预测:RMSE和MAE
Top-N推荐:precision、recall、F1-measure和NDCG
还有一些通用的指标:MAP、MRR、HR、AUC
在线评价
在线部署推荐算法,A/B测试
点击率CTR、转化率CR和一些业务指标如平均收入
推荐解释的评价
同样可以分为离线评价和在线评价
离线评价
通常有两种方法:一种是评价被推荐的项目中可以被模型解释的项目的占比(不考虑解释的质量),另一种是准确评价解的质量。除这两种方法之外,还有一些其他方法被提出用于对推荐解释进行评价。
对于第一种方法,该论文中
Behnoush Abdollahi and Olfa Nasraoui. Using explainability for constrained
matrix factorization. In Proceedings of the Eleventh ACM Conference on
Recommender Systems, pages 79–83. ACM, 2017.
提出了MEP(mean explainability precision)和MER(mean explainability recall)。EP(explainability precision)指的是Top-N推荐中可以解释的项目占推荐数量的的比例,ER(explainability recall)指的是Top-N推荐中可解释的项目在所有可解释项目中占的比例。MEP和MER分别是所有用户的EP和ER的平均值。
对于第二种方法,具体方法取决于解释的特定类型。一种常见的解释是一段文本句子,在这种类型下,可以通过基于文本的度量进行离线评估。例如,在电子商务平台上,可以将用户撰写的评论作为用户购买该商品的基本事实解释。如果生成的解释是一段文本,可以采取常用的文本生成度量方法,例如BLEU(bilingual evaluation understudy)1和ROUGE(recall-oriented understudy for gisting evaluation)2。另外,也可以使用常用的可读性度量方法,如Gunning Fog Index3, Flesch Reading Ease4, Flesch Kincaid Grade Level5, Automated Readability Index6 和 Smog Index7.
在线评价
首先,也可以基于CR和CTR,从用户的实际行为对解释的质量进行评价。除此之外,还有其他维度如说服力、有效性、效率和满意度。说服力很容易实现,就是看这些解释是否帮助用户接受推荐。
Vig等人[2009]基于MovieLens网站对4个解释接口进行了研究,其中4个接口分别是RelSort、PrefSort、RelOnly和PrefOnly。
受试者完成一项在线调查中,他们评估每个接口如何帮助他们(1)理解为什么一个项目被推荐(理由),(2)决定是否他们想推荐项目(有效性),和(3)确定推荐项匹配他们的情绪(情绪兼容性)。根据调查结果,作者得出了标签偏好和标签相关性在促进合理性、有效性和情绪相容性方面的作用的结论。
可解释推荐在不同领域的应用
未来研究方向
未完待续
-
Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics, pages 311–318. Association for Computational Linguistics, 2002. ↩︎
-
Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. Text Summarization Branches Out, 2004. ↩︎
-
Robert Gunning. The technique of clear writing. McGraw-Hill, New York, 1952. ↩︎
-
Rudolph Flesch. A new readability yardstick. Journal of applied psychology, 32(3):221, 1948. ↩︎
-
J Peter Kincaid, Robert P Fishburne Jr, Richard L Rogers, and Brad S Chissom. Derivation of new readability formulas (automated readability index, fog count and flesch reading ease formula) for navy enlisted personnel. Technical report, Naval Technical Training Command Millington TN Research Branch, 1975. ↩︎
-
RJ Senter and Edgar A Smith. Automated readability index. Technical report, CINCINNATI UNIV OH, 1967. ↩︎
-
G Harry Mc Laughlin. Smog grading-a new readability formula. Journal of reading, 12(8):639–646, 1969. ↩︎