斯坦福 CoreNLP 从文本文件（如 englishPCFG.ser.gz）训练模型

【问题标题】：Stanford CoreNLP train model from text file like englishPCFG.ser.gz斯坦福 CoreNLP 从文本文件（如 englishPCFG.ser.gz）训练模型
【发布时间】：2015-07-15 14:05:35
【问题描述】：

我是斯坦福 CoreNLP 的新手，最初我曾参与 Moses 项目。到目前为止，我已经使用了演示文件 ParserDemo2 并且使用englishPCFG.caseless.ser.gz 模型一切正常。我需要根据我拥有的文本英语单语语料库创建自己的模型。

到目前为止，我已经搜索过，发现需要创建一个TreeBank，并在LexicalizedParser类中使用trainFromTreebank方法。

我真的很困惑如何做到这一点。

您能否提供一些信息或将我指向有关如何执行此操作的文档？

【问题讨论】：

标签： java parsing nlp stanford-nlp language-packs

【解决方案1】：

斯坦福解析器常见问题解答："Can I train the parser?"

从一个普通的 PCFG 模型开始可能是最简单的，然后通过状态分裂等方式逐步发展到更复杂的模型。见"Can I just use the parser as a vanilla PCFG parser?"

【讨论】：

我对如何将普通的单语语料库转换为 Penn Treebank 格式感到困惑，我去了cis.upenn.edu/~treebank，但没有发现任何有用的东西。
“单语语料库”是什么意思？数据是什么样的？它需要已经有某种类型的选区解析注释。
我只有一个大的英语句子语料库，我需要用它来训练模型。
您需要标记数据来构建一个带有斯坦福模型或其他模型的解析器——即如何解析句子的示例。这意味着您的数据必须带有树注释，采用 Penn Treebank 格式或类似格式。
你能给我指出如何将其转换为 Penn Treebank 的任何链接吗？我无法通过谷歌搜索找到它。

猜你喜欢

1970-01-01
1970-01-01
2020-08-30
1970-01-01
2016-02-10
2017-11-27
1970-01-01
2018-12-04
1970-01-01

相关资源

下载 2021-06-06
下载 2021-06-06
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode