【问题标题】:Marklogic : unique words countMarklogic:唯一字数
【发布时间】:2012-10-16 12:51:27
【问题描述】:

我有以下 xml 结构:-

<Root>
<text>
 Marklogic is a good big data tool. Right now I am exploring Marklogic.
</text>
</Root>

现在我想计算唯一词的出现次数(例如 Marklogic- 2 次、big- 1 次、data-1 次等)。我通过使用fn:count() 实现了这一点,但fn:count() 在大型数据库的情况下太慢了。

还有其他优化方法可以实现吗? (与索引有关的东西)

【问题讨论】:

标签: xquery marklogic


【解决方案1】:

根据http://docs.marklogic.com/guide/search-dev/lexicon#chapter,您可以启用单词词典并使用cts:words

【讨论】:

  • 我们检查了这个文档,但没有找到任何方法来获取单个字数。我们可以通过启用单词词典来获取所有唯一的单词,但我们的目的是获取这些单词词典的字数。我们还尝试了 xdmp:estimate 但它返回片段数。所以在上面的示例 XML 文件中,我们得到“Marklogic”单词的计数“1”,它应该是“2”,因为它在片段中出现了两次。我们仍然卡住,请帮忙。
  • @PuneetPant 您可以使用选项item-frequency 来获取元素计数,而不是使用默认的fragment-frequency
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-11-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多