【问题标题】:enlarging a text corpus with classes用类扩大文本语料库
【发布时间】:2014-04-08 12:07:34
【问题描述】:

我有一个包含许多句子的文本语料库,其中标记了一些命名实体。 例如句子:

德克萨斯州威奇塔最好的餐厅是哪家?

标记为:

<location>最好的餐厅是什么?

我想扩展这个语料库,获取或采样其中已有的所有句子,并将命名实体替换为来自相同类型的其他类似实体,例如将“wichita texas”替换为“new york”,因此语料库将更大(更多句子)和更完整(其中的实体数量)。我有类似实体的列表,包括那些没有出现在语料库中的实体,但我希望有一定的可能性将它们插入我的替代品中。

您能否推荐一种方法或指导我阅读有关此的论文?

【问题讨论】:

    标签: machine-learning nlp linguistics


    【解决方案1】:

    针对您的具体问题: 这种类型的工作,假设您有一个有组织的命名实体列表(如“地点”、“人”等的单独列表),通常包括手动删除可能不明确的名称(例如,“球衣”可以从您的位置列表,以避免它指代服装的情况)。一旦您确信删除了最模糊的名称,只需为每组术语(例如“位置”或“人”)选择适当的标签。在每个包含这些单词的句子中,用标签替换单词。然后,您可以使用您选择的编程语言执行一些基本扩展,以便每个包含“位置”的句子与每个位置名称重复,每个包含“人”的句子与每个人的名称重复,等等。

    有关使用词类进行聚类的一般概述,请查看开创性的 Brown 等。人。论文:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.13.9919&rep=rep1&type=pdf

    【讨论】:

      猜你喜欢
      • 2015-11-21
      • 1970-01-01
      • 2017-06-25
      • 2022-01-21
      • 2013-10-20
      • 2020-01-11
      • 2019-12-14
      • 2018-12-27
      • 1970-01-01
      相关资源
      最近更新 更多