【问题标题】:Stanford CoreNLP train model from text file like englishPCFG.ser.gz斯坦福 CoreNLP 从文本文件(如 englishPCFG.ser.gz)训练模型
【发布时间】:2015-07-15 14:05:35
【问题描述】:

我是斯坦福 CoreNLP 的新手,最初我曾参与 Moses 项目。 到目前为止,我已经使用了演示文件 ParserDemo2 并且使用englishPCFG.caseless.ser.gz 模型一切正常。 我需要根据我拥有的文本英语单语语料库创建自己的模型。

到目前为止,我已经搜索过,发现需要创建一个TreeBank,并在LexicalizedParser类中使用trainFromTreebank方法。

我真的很困惑如何做到这一点。

您能否提供一些信息或将我指向有关如何执行此操作的文档?

【问题讨论】:

    标签: java parsing nlp stanford-nlp language-packs


    【解决方案1】:

    斯坦福解析器常见问题解答:"Can I train the parser?"

    从一个普通的 PCFG 模型开始可能是最简单的,然后通过状态分裂等方式逐步发展到更复杂的模型。见"Can I just use the parser as a vanilla PCFG parser?"

    【讨论】:

    • 我对如何将普通的单语语料库转换为 Penn Treebank 格式感到困惑,我去了cis.upenn.edu/~treebank,但没有发现任何有用的东西。
    • “单语语料库”是什么意思?数据是什么样的?它需要已经有某种类型的选区解析注释。
    • 我只有一个大的英语句子语料库,我需要用它来训练模型。
    • 您需要标记数据来构建一个带有斯坦福模型或其他模型的解析器——即如何解析句子的示例。这意味着您的数据必须带有树注释,采用 Penn Treebank 格式或类似格式。
    • 你能给我指出如何将其转换为 Penn Treebank 的任何链接吗?我无法通过谷歌搜索找到它。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-08-30
    • 1970-01-01
    • 2016-02-10
    • 2017-11-27
    • 1970-01-01
    • 2018-12-04
    • 1970-01-01
    相关资源
    最近更新 更多