【发布时间】:2017-09-14 16:52:00
【问题描述】:
很清楚如何训练编码器-解码器模型进行翻译:每个源序列都有其对应的目标序列(翻译)。但在文本摘要的情况下,摘要比其文章短得多。根据Urvashi Khandelwal, Neural Text Summarization ,每个源语句都有其摘要(更短或更长)。但我几乎不相信存在任何这样的数据集,其中每个句子都有相应的摘要。那么,如果我是对的,训练sunch模型的可能方法是什么?否则有没有免费的文本摘要数据集?
【问题讨论】:
-
您是否阅读了您链接的论文?他们在那里提到了 ACL 选集数据集。
-
@Aaron,我当然读过了。据我了解,它包含论文及其摘要。我说的对吗?
-
是的。我认为他们在实验中只使用了论文的标题和摘要。人们使用其他技巧来获取数据,例如使用简短的新闻文章和标题作为摘要。
-
@Aaron,所以这都是关于技巧的?
标签: nlp dataset sequence-to-sequence