【问题标题】:Where can I get CoNLL-X training data?我在哪里可以获得 CoNLL-X 训练数据?
【发布时间】:2016-05-19 08:23:40
【问题描述】:

我正在尝试训练斯坦福神经网络依赖解析器来检查短语相似度。

我尝试的方法是:

java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz

我得到的错误是:

Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt
Dev File: null
Model File: modelOutputFile.txt.gz
Embedding File: null
Pre-trained Model File: null
################### Train
#Trees: 1
0 tree(s) are illegal (0.00%).
1 tree(s) are legal but have multiple roots (100.00%).
0 tree(s) are legal but not projective (0.00%).
###################
#Word: 3
#POS:3
#Label: 2
###################
#Transitions: 3
#Labels: 1
ROOTLABEL: null
Random generator initialized with seed 1459831358061
Exception in thread "main" java.lang.NullPointerException
    at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49)
    at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile.  (DependencyParser.java:636)
    at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787)
    at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676)
    at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247)

嵌入在代码中的帮助说明训练文件应该是一个“CoNLL-X 格式的训练树库的路径”。

有谁知道我在哪里可以找到一些用于训练的 CoNLL-X 训练数据? 我提供了培训文件但没有嵌入文件并收到此错误。 我的猜测是,如果我提供嵌入文件,它可能会起作用。

请说明我应该使用哪个训练文件和嵌入文件以及在哪里可以找到它们。

【问题讨论】:

    标签: nlp stanford-nlp dependency-parsing


    【解决方案1】:

    CoNLL-X 树库

    您可以免费获得丹麦语、荷兰语、葡萄牙语和瑞典语的训练数据here。对于其他语言,不幸的是,您可能需要从 LDC 获得树库的许可(该页面上许多语言的详细信息)。

    Universal Dependencies 是 CoNLL-U 格式,通常可以通过一些工作将其转换为 CoNLL-X 格式。

    最后,this page 上有大量树库及其可用性列表。您应该能够将此列表中的许多依赖树库转换为 CoNLL-X 格式(如果它们尚未采用该格式)。

    训练斯坦福神经网络依赖解析器

    来自this page:嵌入文件是可选的,但树库不是。要使用的最佳树库和嵌入文件取决于您要解析的语言和文本类型。理想情况下,您会在尝试解析的领域/类型中尽可能多地训练数据。

    【讨论】:

    • 感谢@dmcc 我省略了嵌入文件并提供了 conll 数据。它现在运行。
    猜你喜欢
    • 2020-11-17
    • 2015-12-02
    • 1970-01-01
    • 2011-02-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多