通用句子编码嵌入数字非常相似答案

【问题标题】：Universal sentence encoding embedding digits very similar通用句子编码嵌入数字非常相似
【发布时间】：2019-08-14 07:03:26
【问题描述】：

我有句子相似度的任务，我计算两个句子的余弦以确定它们的相似程度。似乎对于带有数字的句子，无论数字有多“远”，相似度都不会受到影响。举个例子：

a = generate_embedding('issue 845')

b = generate_embedding('issue 11')

cosine_sim(a,b) = 0.9307

有没有办法消除数字散列或任何其他黑客来处理该问题？

【问题讨论】：

【解决方案1】：

如果您的句子嵌入是使用单个单词（或标记）的嵌入生成的，那么黑客可能如下：

为词嵌入添加维度。对于所有非数字标记，这些维度将设置为零，对于数字标记，这些维度将包含反映数值大小的值。它会有点数学化，因为余弦相似度使用角度，因此添加到嵌入中的额外维度必须通过更大或更小的角度反映数值的大小。

一个更简单（解决方法）的技巧是使用正则表达式从句子中提取数值并计算它们的距离，并将该信息与相似度得分相结合以获得新的相似度得分。

【讨论】：