【发布时间】:2013-03-01 20:35:05
【问题描述】:
给定一组文本(可能是书籍、文章、文档等),您将如何找到每个文本的相关关键字? 常识建议:
- 分词
- 排除常用词(也称为停用词,如“a, 到、为、在")
- 统计词频
- 给每个单词打分,公式考虑到每个单词在文档和其他文档中出现的频率、文档的单词数和所有文档的总单词数
问题是:哪个是一个好的公式?
【问题讨论】:
标签: algorithm
给定一组文本(可能是书籍、文章、文档等),您将如何找到每个文本的相关关键字? 常识建议:
问题是:哪个是一个好的公式?
【问题讨论】:
标签: algorithm
我已经开发了一个。
为每个单词计算这个比率:
(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
(number of words in this text) * (frequency of word in all texts)
关键词是那些比例在最高 20% 的词(对于本文档)。
Ankerl也提出了自己的公式:
tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)
地点:
两种算法都运行良好,而且结果经常一致。你知道有什么方法可以做得更好吗?
【讨论】: