【发布时间】:2015-04-26 15:16:22
【问题描述】:
我正在为一个集合构建一个文档相似度图。我已经做了所有基本的事情,比如标记化、词干提取、停用词去除和词袋表示来表示文档并使用 Jaccard 系数计算相似度。我现在正在尝试提取命名实体并评估它们是否有助于提高文档相似度图的质量。我一直在为我的分析寻找真实数据集。我对消息理解会议 (MUC) 数据集感到非常失望。它们难以理解,需要充分的数据清理/按摩才能在不同的平台(如 Scala)上使用
我的问题在这里更具体
- 是否有关于 MUC 数据集入门的教程,可以更轻松地使用 openNLP 等开源 NLP 工具分析结果
- 还有其他可用的数据集吗?
- OpenNLP 和 Stanford Core NLP 等工具采用了本质上受监督的方法。正确吗?
- GATE 是手动注释您自己的文本语料库的绝佳工具,对吗?
- 对于一个新的测试数据集(我手动创建),我如何计算基线(词汇迁移)或我可以计算什么样的指标?
【问题讨论】:
标签: dataset nlp opennlp named-entity-recognition