【问题标题】:Converting prop file to arff file将 prop 文件转换为 arff 文件
【发布时间】:2014-02-10 02:21:03
【问题描述】:

我正在使用Staford classifier 执行与 NLP 相关的任务。但我也需要尝试其他机器学习算法。所以我想将 prop 文件转换为 arff 或打印特征然后转换为 arff 文件。一个主要问题是分类器工具输出的特征具有稀疏表示(仅显示存在的特征)。如何做到这一点?

【问题讨论】:

    标签: machine-learning nlp weka stanford-nlp


    【解决方案1】:

    ARFF 有一个sparse 格式。它与非稀疏 ARFF 文件非常相似,但没有明确表示值为 0 的数据。

    稀疏 ARFF 文件具有相同的标头(即 @relation 和 @attribute 标记),但数据部分不同。而不是按顺序表示每个值,如下所示:

    @data
    0, X, 0, Y, "class A"
    0, 0, W, 0, "class B"
    

    非零属性由属性号明确标识,并声明其值,如下所示:

    @data
    {1 X, 3 Y, 4 "class A"}
    {2 W, 4 "class B"}
    

    注意this关于arff稀疏格式的问题。

    【讨论】:

    • 在斯坦福分类器中假设为一个句子生成 Ngram,整个句子在 column1 中给出。那么这些特征将被表示为1-set1Ngram 1-nextSetNgram 1-nextAgain,依此类推,直到形成所有的ngram。但我想这组中的每一个都以 arff 格式形成不同的特征,所以格式应该是,比如{ 1 set1Ngram, 2 nextSetNram, 3 nextAgain} rather than {1 set1Ngram, 1 nextSetNram, 1 nextAgain}
    猜你喜欢
    • 2014-06-11
    • 2015-06-10
    • 1970-01-01
    • 1970-01-01
    • 2013-11-11
    • 2019-08-21
    • 2019-09-03
    • 2012-02-29
    • 2020-08-24
    相关资源
    最近更新 更多