评论摘要的 NLP 项目答案

【问题标题】：NLP project on Comment Summarization评论摘要的 NLP 项目
【发布时间】：2014-12-06 08:46:58
【问题描述】：

我计划完成关于自然语言处理（使用 NLTK）的最后一年项目，我感兴趣的领域是 来自社交媒体网站的评论摘要，例如 Facebook。例如，我正在尝试做这样的事情：

图片中的随机 Facebook cmets：

哇！漂亮。
看起来真的很漂亮。
非常漂亮，漂亮的照片。

现在，所有这些 cmets 都将被映射（使用基于模板的评论摘要技术）成如下内容：

3 个人觉得这张照片很“漂亮”。

输出将包含单词 “beautiful”，因为它在 cmets 中比单词 “pretty”更常用 em>（以及 Beautiful 和 pretty 是同义词的事实）。为了完成这项任务，我将使用诸如跟踪 关键字频率之类的方法和关键字得分（在这种情况下，“Beautiful”和“Pretty”的得分非常接近）。 这是最好的方法吗？

到目前为止，通过我的研究，我已经能够提出以下论文，但没有一篇论文涉及这种评论摘要：

该领域还有哪些其他论文解决了类似的问题？

除此之外，我还希望我的摘要器在每次摘要任务中都得到改进。在这方面我如何应用机器学习？

【问题讨论】：

标签： python machine-learning nlp nltk summarization

【解决方案1】：

主题模型聚类正是您要寻找的。p>

在 Google 学术搜索中搜索“主题模型聚类将为您提供大量关于主题模型聚类的参考资料。

要理解它们，除了机器学习的一般基础知识之外，您还需要熟悉以下任务的方法。

聚类：余弦距离聚类、k-means 聚类
排名：PageRank、TF-IDF、互信息增益、最大边际相关性

【讨论】：

好的，谢谢，但是我跟踪关键字频率的方法绝对错误吗？
不，不是。 AMOF Chua 等人的论文。您在问题中提到的所有内容都使用主题模型。我的回答为您指明了查找内容的方向。主题建模有多种方法。由您来确定最适合您的数据的方法