【发布时间】:2020-01-16 12:59:46
【问题描述】:
在 NLU 训练数据中,是否应该将意图表达上的标点符号(逗号、撇号、问号、大写字母等)保持原样、删除,还是根本不重要?
【问题讨论】:
-
您应该从问题中删除特殊字符。
. ? ,等
标签: machine-learning nlp rasa-nlu punctuation rasa
在 NLU 训练数据中,是否应该将意图表达上的标点符号(逗号、撇号、问号、大写字母等)保持原样、删除,还是根本不重要?
【问题讨论】:
. ? ,等
标签: machine-learning nlp rasa-nlu punctuation rasa
训练数据可以留下标点符号,WhitespaceTokenizer (documentation link) 会清理它。不是所有的标点符号都被清除了!您可以在Github 上查看标记器中使用的正则表达式。
因此,对于您提到的逗号、撇号、问号等标点符号,您可以将其留在那里,然后分词器会处理它。
【讨论】: