【发布时间】:2014-04-08 12:07:34
【问题描述】:
我有一个包含许多句子的文本语料库,其中标记了一些命名实体。 例如句子:
德克萨斯州威奇塔最好的餐厅是哪家?
标记为:
<location>最好的餐厅是什么?
我想扩展这个语料库,获取或采样其中已有的所有句子,并将命名实体替换为来自相同类型的其他类似实体,例如将“wichita texas”替换为“new york”,因此语料库将更大(更多句子)和更完整(其中的实体数量)。我有类似实体的列表,包括那些没有出现在语料库中的实体,但我希望有一定的可能性将它们插入我的替代品中。
您能否推荐一种方法或指导我阅读有关此的论文?
【问题讨论】:
标签: machine-learning nlp linguistics