用类扩大文本语料库答案

【问题标题】：enlarging a text corpus with classes用类扩大文本语料库
【发布时间】：2014-04-08 12:07:34
【问题描述】：

我有一个包含许多句子的文本语料库，其中标记了一些命名实体。例如句子：

德克萨斯州威奇塔最好的餐厅是哪家？

标记为：

<location>最好的餐厅是什么？

我想扩展这个语料库，获取或采样其中已有的所有句子，并将命名实体替换为来自相同类型的其他类似实体，例如将“wichita texas”替换为“new york”，因此语料库将更大（更多句子）和更完整（其中的实体数量）。我有类似实体的列表，包括那些没有出现在语料库中的实体，但我希望有一定的可能性将它们插入我的替代品中。

您能否推荐一种方法或指导我阅读有关此的论文？

【问题讨论】：

标签： machine-learning nlp linguistics

【解决方案1】：

针对您的具体问题： 这种类型的工作，假设您有一个有组织的命名实体列表（如“地点”、“人”等的单独列表），通常包括手动删除可能不明确的名称（例如，“球衣”可以从您的位置列表，以避免它指代服装的情况）。一旦您确信删除了最模糊的名称，只需为每组术语（例如“位置”或“人”）选择适当的标签。在每个包含这些单词的句子中，用标签替换单词。然后，您可以使用您选择的编程语言执行一些基本扩展，以便每个包含“位置”的句子与每个位置名称重复，每个包含“人”的句子与每个人的名称重复，等等。

有关使用词类进行聚类的一般概述，请查看开创性的 Brown 等。人。论文：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.13.9919&rep=rep1&type=pdf

【讨论】：