【问题标题】:jcrfsuite training file formatjcrfsuite 培训文件格式
【发布时间】:2017-10-18 02:08:05
【问题描述】:

根据我从 jcrfsuite 示例中给出的 POS 标记示例中的理解。训练文件是制表符分隔的,第一个标记是标签。但我没有得到 BigCluster|事物。有人可以帮助我如何在训练文件中指定令牌。

下面的例子:

o bigcluster | 00 bigcluster | 000000 bigcluster | 00000000 bigcluster | 0000000000 bigcluster | 000000000000 bigcluster | 00000000000000 bigcluster | 0000000000000000 nextbigcluster | 0100 nextbigcluster | 01000101 nextbigcluster | 01000101111 Postagdict | d postagdict | ^ postagdict | ^ postagdict | ^ postagdict | ^ postagdict | ^ postagdict | |G NextPOSTag|V 1gramSuff|i 1gramPref|i prevword| prevcurr||i nextword|predict nextword|predict currnext|i|predict Word|I Lower|i Xxdshape|X charclass|1, first-shortcap prevnext||predict t=0

测试文件格式:

! bigcluster | 01 bigcluster | 0110 bigcluster | 01101100 bigcluster | 0110110011大肠杆菌| 011011001100 bigcluster | 01101100110000 bigcluster | 01101100110000 bigcluster | 0110110011000000 nextbigcluster | 1000 nextbigcluster | 10001000 nextbigcluster | 10001000000 mnn 4gramSuff|mmnn 5gramSuff|mmmnn 6gramSuff|ammmnn 7gramSuff|aammmnn 8gramSuff|aaammmnn 9gramSuff|daaammmnn 1gramPref|d 2gramPref|da 3gramPref|daa 4gramPref|daaa 5gramPref|daaam 6gramPref|daaamm 7gramPref|daaammm|daaammm 8gramPref|daammn 预置词prevcurr||daaammmnn nextword|。下一个字|。当前下一个|daaammmnn|。 Word|Daaammmnn Lower|daaammmnn Xxdshape|Xxxxxxxxx charclass|1,2,2,2,2,2,2,2,2, first-initcap prevnext||. t=0

【问题讨论】:

    标签: java machine-learning crfsuite


    【解决方案1】:

    标签后指定的是特征名称和特征值的列表。 它采用稀疏表示而不是表格表示。

    BigCluster 只是其中一项功能,仅与具体示例相关。如果您是从头开始训练,则应该创建自己的特征。

    【讨论】:

      【解决方案2】:

      我注意到 CRFsuite 不关心命名约定,也不关心标签和属性的功能设计,因为将它们视为字符串。

      CRFsuite 学习属性和标签之间的关联权重(特征权重),而不知道标签和属性的含义。换句话说,只需在数据集中编写标签和属性名称,就可以设计和使用任意特征,只需为您的示例找到可能的最佳属性,并使用不同的属性和特征集进行一些实验。你会很高兴的。

      【讨论】:

        猜你喜欢
        • 2013-11-04
        • 2019-07-10
        • 2021-11-28
        • 2012-06-15
        • 2017-12-31
        • 2011-10-22
        • 1970-01-01
        • 2023-03-13
        • 2013-12-28
        相关资源
        最近更新 更多