【问题标题】:Mallet SimpleTagger different number of predicatesMallet SimpleTagger 不同数量的谓词
【发布时间】:2017-11-27 19:20:50
【问题描述】:

我正在尝试SimpleTagger 提供的here 教程。我已经运行了与页面上提供的完全相同的命令,即

java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --train true --model-file nouncrf sample

java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --model-file nouncrf stest.

这是我的 samplestest 文件。

$ cat sample

Bill CAPITALIZED noun  
slept non-noun  
here LOWERCASE STOPWORD non-noun

$ cat stest

CAPITAL Al  
        slept  
        here

但是,我的输出与他们页面上的输出不同。这是我得到的输出。

Number of predicates: 9  
noun   
non-noun   
non-noun 

我的问题是

  1. “谓词数”表示什么?
  2. 为什么我得到 9 个谓词,而官方消息称同一输入文件有 5 个谓词?

我正在使用 Mallet 2.0.8,如果这很重要的话。

【问题讨论】:

  • 如果有帮助,我也会得到 9

标签: java mallet crf


【解决方案1】:

当你开始训练时,SimpleTagger 给你的第一条信息是:

Number of features in training data: x
Number of predicates: y

谓词的数量y 是您的训练数据包含的不同标记(或行)的数量。

当您使用上一列中的模型(具有 y 谓词)标记文件时,您会收到一条消息:

Number of predicates: z

zy 与您要标记的文件包含的不同标记(或行)数之和。这就是为什么z 总是大于(或等于)y。例如,如果您尝试使用具有y 谓词的模型标记一个空的内容文本文件,您将获得多个谓词y,即y + 0 = y,因为您的空文件具有0 标签。

【讨论】:

    猜你喜欢
    • 2013-03-06
    • 1970-01-01
    • 2011-07-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多