【问题标题】:Sentence segmentation tools to use when input sentence has no punctuation (is normalized)输入句子没有标点符号时使用的句子分割工具(已标准化)
【发布时间】:2012-07-07 11:02:15
【问题描述】:

假设有一个句子,如“给我找点爵士音乐并播放它”,其中所有文本都被规范化并且没有标点符号(语音识别库的输出)。

除了在连词上拆分的幼稚方法之外,还有哪些在线/离线工具可用于“句子分割”?

输入:

给我找一些爵士乐并播放它

输出:

给我找些爵士音乐
玩吧

【问题讨论】:

  • 您能否提供更多输入/输出示例来帮助我们理解为什么简单的连词拆分不足以解决这个问题?
  • 如果你做一个简单的连词拆分,你会丢失两个句子之间的共享对象/属性。在上面的例子中,“play it”已经失去了“音乐属性”。我想在语义上而不是句法上分割句子,抱歉没有说清楚!
  • 所以你想做'共指解析'(google it),然后在连词上分开?通过这样做,您的输出将类似于 ['find me some jazz music', 'play the jazz music']

标签: nlp text-segmentation


【解决方案1】:

dependence parser 应该会有所帮助。

【讨论】:

    【解决方案2】:

    您可以为此使用语义角色标记器,例如 mate tools 等。它将以 prop bank 样式提取谓词和相关参数。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-12-21
      • 1970-01-01
      • 1970-01-01
      • 2022-11-28
      • 1970-01-01
      • 2017-01-12
      • 1970-01-01
      相关资源
      最近更新 更多