【发布时间】:2015-03-20 06:26:26
【问题描述】:
我正在总结文本,使用 nltk 库我能够提取二元一元和三元并按频率排序
由于我对这个领域 (NLP) 非常陌生,我想知道是否可以使用统计模型来自动选择正确的 Ngram 大小(我所说的大小是 N-gram 的长度) word unigram、两个词 bigram 或 3 个词 trigram)
例如,假设我有一段想要总结的文本,作为总结,我将只保留 5 个最相关的 N-gram:
"A more principled way to estimate sentence importance is using random walks
and eigenvector centrality. LexRank[5] is an algorithm essentially identical
to TextRank, and both use this approach for document summarization. The two
methods were developed by different groups at the same time, and LexRank
simply focused on summarization, but could just as easily be used for
keyphrase extraction or any other NLP ranking task." wikipedia
然后作为我想要的输出,“随机游走”、“texRank”、“lexRanks”、“文档摘要”、“关键词提取”、“NLP 排名任务”
换句话说,我的问题是:如何推断一元组比二元组或三元组更相关? (仅使用频率来衡量 N-gram 的相关性不会给我想要的结果)
谁能给我指出已经使用或解释过这种方法的研究论文、算法或课程
提前谢谢你。
【问题讨论】:
标签: nlp data-mining information-retrieval text-mining summary