《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记

1 Why
2 What
3 How

3.1 algorithm on building hierarchical explanations

3.1.1 detecting feature interaction
3.1.2 quantifying feature importance

4 Result

4.1 三种评估方法

4.1.1 AOPC
4.1.2 log-odds scores
4.1.3 cohesion-score

4.2 实验

4.2.1 Quantitative Evaluation
4.2.2 Qualitative Analysis

5 Idea
6 Relatives

1 Why

神经网络的可解释性对于其在现实生活中的应用有重要的意义。现存的方法只是单独提取输入句子的词或短语作为自然语言处理模型的解释特征，将模型预测结果按贡献程度归到单独的词或短语，没有考虑到它们之间的交互关系，只提供了局部的解释性，使得模型的解释性不强，因此需要将词或短语的交互关系和模型预测结果联系起来，从而更好地解释模型的运行机制。
《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记
例如LIME和CD两种方法分别捉住了waste和waste of 两个关键词，并赋予相应的贡献度，再根据各个词语对句子正负情绪判断的贡献度将句子判断为负，但是只考虑了局部的解释性，没办法很好地解释good performance这个短语对于这整个句子被判断为负的贡献程度。

2 What

所以本文提出了通过检测特征交互来构建层次化的解释，构建的这些解释能够可视化不同的词组和短语在不同的特征层次中是怎么组合发挥作用的，进一步让人们明白模型的运作原理。本文提出的模型为model-agnostic方法，称为HEDGE，其根据句子中词或短语之间最弱的连接将句子分割，并赋予每个部分贡献值，最后形成对模型结果的多粒度的层次化的解释。例如上面的例子，本文的模型能够判断出good是从属于waste的，所以就能很好得解释为什么整个句子在good存在的情况下还被判断为负的情况。

3 How

3.1 algorithm on building hierarchical explanations

算法由两部分组成：1 detecting和2 quantifying，整个算法流程如图，第6步的Equation 1 就是detecting，第9步是quantifying，整个流程基本是这两步的交替，既寻找分割点和赋予贡献度。
《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记

3.1.1 detecting feature interaction

此部分是用来确定分割的文段和分割点。
算法会根据公式（1）找到给定文段的交互关系最弱的位置，并在该位置将文段分割成两个小文段。
《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记
公式（1）的内层最小化是用来寻找分割点，外层最小化是用来寻找分割段，公式（1）中的交互关系是使用coalition game theory的Shapley interaction index来计算，即公式（2）。公式（3）其实就是各个文段在经过模型后的结果的期望值的加减。
《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记

随着分割的进行，计算量以指数级增长，（2）式会变成不可解，所以改为求他的近似解。这是基于一个词或短语通常跟它的周围的上下文有强联系的假设，将文段的范围限定在关键词的周围m个词。

《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记

3.1.2 quantifying feature importance

用来评估词或短语对于模型预测结果的贡献度.
《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记
这个贡献值函数衡量模型在x的条件下将结果预测为yhat的置信度。即如果模型预测正确，公式（5）等式右边第一项会比第二项大，表示该文段对模型预测结果的贡献是正的值，反之为负的值。

4 Result

4.1 三种评估方法

4.1.1 AOPC

《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记
通过删去得分靠前的k个词后模型的结果与删除之前比较，可以得到删去的词的重要性，结果值越大表示词对于句子预测结果贡献越大。

4.1.2 log-odds scores

《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记
将句子中的前r%个词用0 mask，结果越小，表示被mask掉的词越重要。

4.1.3 cohesion-score

这是本文提出的衡量一段文字中词之间的交互程度的方法。
挑选一个HEDGE分割出来的片段，随机插入到句子中其他位置，重复得到Q个不同的乱序句子，然后计算下式的平均值，值越高越好：
《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记

4.2 实验

4.2.1 Quantitative Evaluation

《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记
本文的HEDGE在AOPC、Log-odds两个指标的表现都要优于其他模型，Shapley类的方法也有不错的表现，但是模型的复杂度比HEDGE高。

《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记
在Cohesion-score衡量下，同是结构可视化的方法，HEDGE比ACD好，而且HEDGE在BERT模型上的效果要比其他模型要好，说明bert对于关键词语的变动更敏感

4.2.2 Qualitative Analysis

当LSTM误判时，HEDGE和ACD的可视化结果
LSTM判断为正的句子，实际为负。

bravura exercise 翻转了in emptiness的极性为正，这也解释了为什么LSTM判断错误。

而ACD 错误地标识两个词的极性，而且忽略了词之间的交互关系。
HEDGE在LSTM和BERT上的比较

BERT捉住了not a bad这段关键信息，从而可以做出正确判断，而LSTM却忽略了这段信息。

5 Idea

文章主要是针对文本情感分类模型的解释，需要利用分类结果信息，还不能扩展到无监督的模型。
文章的算法的主要不同点是利用里词或短语之间的交互关系，但是这种交互关系是否可以直接在Bert或transformer的self-attention的基础上做改进？

6 Relatives

待续。。。