【问题标题】:Confusion about word hashing in DSSM?对 DSSM 中的单词散列感到困惑?
【发布时间】:2018-10-18 04:17:10
【问题描述】:

在这篇论文Learning Deep Structured Semantic Models for Web Search using Clickthrough Data 中,它使用单词散列技术将单词的 one-hot 表示转换为字母三元组的(稀疏)向量。

根据我的理解,例如,一个单词look首先被分解为字母三元组[#lo, loo, ook, ok#],然后表示为一个向量,其中每个三元组都带有一个,而其他地方则为零。通过这样做,它可以减少词向量的维度,同时像论文中所说的那样几乎没有冲突。

我的困惑是,通常如果我们使用词袋表示来表示基于 one-hot 表示的文档,我们只计算每个单词的出现次数。但是我可以想象,如果我们使用基于字母三元组的词袋,很容易会有不同的词共享共同的模式,因此通过这种表示方式来恢复文档中哪些词的信息似乎很困难。

我理解正确吗?这个问题是如何解决的?还是对论文中的查询/标题实验并不重要?

【问题讨论】:

    标签: machine-learning text nlp word information-retrieval


    【解决方案1】:

    但是我可以想象,如果我们使用基于字母三元组的词袋,很容易会有不同的词共享共同的模式,因此通过这种表示来恢复文档中哪些词的信息似乎很困难。

    这是正确的,因为该模型并未明确旨在通过使用单词中的信息来学习后验概率。相反,它使用来自三元组的信息。

    这个问题是如何解决的?还是对论文中的查询/标题实验并不重要?

    这个问题可以通过添加一个 CNN/LSTM 层来表示来自三元组输入的更高(接近于单词)的抽象来解决。 this paper 中报告的研究在 trigram 输入之上采用了 CNN,如下所示。

    【讨论】:

    • 谢谢你的回答,我猜CNN+pooling结构是来自同一个作者做的以下名为CLSM的工作,其实我想问一下他们在原DSSM论文中是如何解决这个问题的?
    • 不,他们没有......在我看来,对于他们的任务,他们发现三元组已经足够好了......虽然我引用的论文来自不同的作者......
    • 是的,但图片似乎是 CLSM 工作的参考,无论如何谢谢:)
    猜你喜欢
    • 2011-10-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-11-25
    • 2019-09-13
    • 2012-07-22
    • 2013-05-13
    • 2020-04-16
    相关资源
    最近更新 更多