【发布时间】:2014-12-06 08:46:58
【问题描述】:
我计划完成关于自然语言处理(使用 NLTK)的最后一年项目,我感兴趣的领域是 来自社交媒体网站的评论摘要,例如 Facebook。例如,我正在尝试做这样的事情:
图片中的随机 Facebook cmets:
- 哇!漂亮。
- 看起来真的很漂亮。
- 非常漂亮,漂亮的照片。
现在,所有这些 cmets 都将被映射(使用基于模板的评论摘要技术)成如下内容:
3 个人觉得这张照片很“漂亮”。
输出将包含单词 “beautiful”,因为它在 cmets 中比单词 “pretty”更常用 em>(以及 Beautiful 和 pretty 是同义词的事实)。为了完成这项任务,我将使用诸如跟踪 关键字频率之类的方法和关键字得分(在这种情况下,“Beautiful”和“Pretty”的得分非常接近)。 这是最好的方法吗?
到目前为止,通过我的研究,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:
该领域还有哪些其他论文解决了类似的问题?
除此之外,我还希望我的摘要器在每次摘要任务中都得到改进。在这方面我如何应用机器学习?
【问题讨论】:
标签: python machine-learning nlp nltk summarization