【问题标题】:Word and phrase counting with XSLT使用 XSLT 进行单词和短语计数
【发布时间】:2018-07-24 16:06:26
【问题描述】:

我们想为我们公司生产的产品的文档建立一个字典,以创建一个固定的术语,因此我们想计算特定单词和短语的频率。

这可以通过几种不同的方式解决,但我们想以某种方式解决的是编写一个 XSLT 算法,它可以识别短语,因为特定的单词经常一起出现(所以我们不必事先指定所有词组及其所有版本,具有不同的变位、词缀等)。

您认为,这项任务可以使用 XSLT 完成,还是我们应该考虑其他解决方案?

如果有人对我们应该如何开始有任何有用的建议,我将非常乐意听到您的想法并就此展开对话!

【问题讨论】:

    标签: xml xslt word dita phrases


    【解决方案1】:

    您正在寻找搭配,在算法方面与Pointwise mutual information 相关联。

    在 XSLT 中,没有自然语言处理 (NLP) 框架,因此您必须发明一个。但是,有一些用于编程语言的 NLP 框架,例如 Python 的 NLTK。查看this example for finding collocations using Python

    使用以 Python 或 R 等流行数据挖掘语言编写的外部应用程序可能是最简单的方法。(您甚至可以将其插入到您的 DITA OT 处理中。)您还可以查看具有现有解决方案的供应商。我没有对此进行任何深入的搜索,但我已经看到诸如 Watson、Semaphore 甚至 XDocs 之类的系统从语言分析中返回结果。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-09-26
      • 1970-01-01
      • 1970-01-01
      • 2021-05-11
      • 1970-01-01
      • 1970-01-01
      • 2012-01-27
      • 1970-01-01
      相关资源
      最近更新 更多