Marklogic：唯一字数

【问题标题】：Marklogic : unique words countMarklogic：唯一字数
【发布时间】：2012-10-16 12:51:27
【问题描述】：

我有以下 xml 结构：-

<Root>
<text>
 Marklogic is a good big data tool. Right now I am exploring Marklogic.
</text>
</Root>

现在我想计算唯一词的出现次数（例如 Marklogic- 2 次、big- 1 次、data-1 次等）。我通过使用fn:count() 实现了这一点，但fn:count() 在大型数据库的情况下太慢了。

还有其他优化方法可以实现吗？（与索引有关的东西）

【问题讨论】：

【解决方案1】：

根据http://docs.marklogic.com/guide/search-dev/lexicon#chapter，您可以启用单词词典并使用cts:words。

【讨论】：

我们检查了这个文档，但没有找到任何方法来获取单个字数。我们可以通过启用单词词典来获取所有唯一的单词，但我们的目的是获取这些单词词典的字数。我们还尝试了 xdmp:estimate 但它返回片段数。所以在上面的示例 XML 文件中，我们得到“Marklogic”单词的计数“1”，它应该是“2”，因为它在片段中出现了两次。我们仍然卡住，请帮忙。
@PuneetPant 您可以使用选项item-frequency 来获取元素计数，而不是使用默认的fragment-frequency。