【问题标题】:Should punctuation be removed from Rasa NLU training data?是否应该从 Rasa NLU 训练数据中删除标点符号?
【发布时间】:2020-01-16 12:59:46
【问题描述】:

在 NLU 训练数据中,是否应该将意图表达上的标点符号(逗号、撇号、问号、大写字母等)保持原样、删除,还是根本不重要?

【问题讨论】:

  • 您应该从问题中删除特殊字符。 . ? ,

标签: machine-learning nlp rasa-nlu punctuation rasa


【解决方案1】:

训练数据可以留下标点符号,WhitespaceTokenizer (documentation link) 会清理它。不是所有的标点符号都被清除了!您可以在Github 上查看标记器中使用的正则表达式。

因此,对于您提到的逗号、撇号、问号等标点符号,您可以将其留在那里,然后分词器会处理它。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-04-29
    • 2018-09-22
    • 2020-09-28
    • 1970-01-01
    相关资源
    最近更新 更多