【发布时间】:2018-10-18 04:17:10
【问题描述】:
在这篇论文Learning Deep Structured Semantic Models for Web Search using Clickthrough Data 中,它使用单词散列技术将单词的 one-hot 表示转换为字母三元组的(稀疏)向量。
根据我的理解,例如,一个单词look首先被分解为字母三元组[#lo, loo, ook, ok#],然后表示为一个向量,其中每个三元组都带有一个,而其他地方则为零。通过这样做,它可以减少词向量的维度,同时像论文中所说的那样几乎没有冲突。
我的困惑是,通常如果我们使用词袋表示来表示基于 one-hot 表示的文档,我们只计算每个单词的出现次数。但是我可以想象,如果我们使用基于字母三元组的词袋,很容易会有不同的词共享共同的模式,因此通过这种表示方式来恢复文档中哪些词的信息似乎很困难。
我理解正确吗?这个问题是如何解决的?还是对论文中的查询/标题实验并不重要?
【问题讨论】:
标签: machine-learning text nlp word information-retrieval