【发布时间】:2016-01-13 02:59:03
【问题描述】:
我正在处理一个关键字提取任务,我想提取短语而不是单词。为了将每个句子分成有意义的部分,我首先进行词性标记,然后根据语言规则仅提取名词短语。每个名词短语都是要提取的潜在关键字。但是,由于我只需要为每个给定文档提取“k”个关键字,因此我需要一种对提取的名词短语进行排名的好方法。一种简单的方法是计算每个术语(每个名词短语内)的 TDIDF 分数,然后每个名词短语的分数将是其组成术语的 TDIDF 分数的乘积。我想知道是否有人对我的简单幼稚解决方案有更好的方法或任何想法?
【问题讨论】:
-
这是一种完全有效的方法。完成此操作后,请查看您的方法遗漏了什么,看看是否有办法调整系统以产生更好的结果。这样做,直到你用完时间和/或金钱。
标签: nlp tf-idf part-of-speech