【发布时间】:2015-04-04 14:27:27
【问题描述】:
在我的项目中,我必须计算维基百科文章中出现频率最高的单词。我找到了用于解析 HTML 格式的 Jsoup,但这仍然存在词频问题。 Jsoup 中是否有计算单词频率的功能,或者使用 Jsoup 查找网页上最常用的单词的任何方法?
谢谢。
【问题讨论】:
-
不,Jsoup 不是统计/直方图工具。它是简单的 XML/HTML 解析器。
-
有没有可以用来解决我的问题的 API?
-
也许有,但我不知道有任何关于工具推荐的问题在 Stack Overflow 上是题外话,所以你不应该在这里询问它们。但是您可以使用例如
Map<String, Integer>编写自己的代码,您将在其中存储每个单词及其计数。完成映射后,找到最大计数。
标签: java html jsoup webpage word-frequency