【发布时间】:2019-08-14 07:03:26
【问题描述】:
我有句子相似度的任务,我计算两个句子的余弦以确定它们的相似程度。似乎对于带有数字的句子,无论数字有多“远”,相似度都不会受到影响。举个例子:
a = generate_embedding('issue 845')
b = generate_embedding('issue 11')
cosine_sim(a,b) = 0.9307
有没有办法消除数字散列或任何其他黑客来处理该问题?
【问题讨论】:
标签: tensorflow nlp word-embedding