【问题标题】:How to extract relevant phrases from sentences regarding a particular topic using Neural networks?如何使用神经网络从有关特定主题的句子中提取相关短语?
【发布时间】:2020-09-09 18:29:06
【问题描述】:

我将训练数据分为两列 1.“句子” 2.'Relevant_text'(本栏文字是'Sentences'栏文字的子集)

我尝试使用 LSTM 训练 RNN,直接将“句子”作为输入,将“相关文本”作为输出,但结果令人失望。

我想知道如何解决这类问题?这种问题有名字吗?我应该探索哪些模型?

【问题讨论】:

    标签: python text nlp lstm recurrent-neural-network


    【解决方案1】:

    如果目标文本是输入文本的子集,那么我相信这个问题可以作为一个标记问题来解决:让你的神经网络为每个单词预测它是否“相关”。

    一方面,获取文本并选择最能反映其含义的子集的问题称为extractive summarization,并且有很多解决方案,从众所周知的无监督textRank算法到复杂的基于BERT的神经模型。

    另一方面,从技术上讲,您的问题只是二进制标记分类:您将输入文本的每个标记(单词或其他符号)标记为“相关”或不相关,并训练任何适合的神经网络架构标记此数据。具体来说,我会研究 POS 标记的架构,因为它们已经得到了很好的研究。通常,它是 BiLSTM,可能带有 CRF 头。更现代的模型基于预训练的上下文词嵌入,例如 BERT(也许,您甚至不需要微调它们 - 只需将其用作特征提取器,并在顶部添加 BiLSTM)。如果您想要一个更轻量级的模型,您可以考虑使用 CNN 而非预训练和固定的词嵌入。

    最后一个你应该使用的参数是将单词分类为相关的阈值 - 也许默认的 0.5 不是最佳选择。也许,您不想保留所有重要概率高于 0.5 的标记,而是保留前 k 个标记,其中 k 是固定的或者是整个文本的某个百分比。

    当然,更具体的建议将是特定于数据集的,因此如果您可以共享您的数据集,那将是一个很大的帮助。

    【讨论】:

      猜你喜欢
      • 2011-12-23
      • 2012-07-10
      • 1970-01-01
      • 2021-04-27
      • 2018-11-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多