【问题标题】:Is any text-pre-processing recommended for LUIS-bot-app?是否为 LUIS-bot-app 推荐了任何文本预处理?
【发布时间】:2017-12-19 04:03:31
【问题描述】:

是否建议对“训练话语”和“最终用户输入话语”执行以下文本预处理任务?

  1. 替换为“根”同义词。例如。用“根”同义词regular替换词普通/典型。这类似于 LUIS 短语列表,但我可以定义自己应用的内部列表,不限于 10 个短语列表。
  2. 词干:将变形(或有时派生)的词减少到它们的词根形式。例如,单词“connect”、“connects”、“connected”、“connection”、“connecting”将映射到“connect”。

...我是否错过了任何其他文本预处理任务?

【问题讨论】:

    标签: bots text-classification azure-language-understanding


    【解决方案1】:

    根据我在 LUIS 方面的经验,我不建议进行文本预处理。 LUIS 正在使用使用 POS 标记的分类方法。词干或替换词根可能会改变句子的含义。最好的方法是继续使用原始用户创建的内容。

    【讨论】:

    • 您是否对此进行了一些研究来证明您的结论?例如。应用交叉验证技术来测试有/没有预处理性能。或者,也许您有一些 Microsoft 建议避免预处理的链接?
    • 我确实在聊天机器人 LUIS 模型中遇到过这种场景。它在没有预处理步骤的情况下表现良好。
    • 在我们的机器人中,我们应用了有助于提高准确性的预处理。但是,它导致管理预处理和相关副作用的负担过重。微软有什么推荐吗? MS 是否正在部署任何技术来消除对预处理的需求?
    • 当您将请求推送到 LUIS 时,您可以启用必应拼写检查器。我想这就够了。
    • 感谢您的回复。必应拼写检查已经存在。但是,如果 LUIS 接受过“给我芒果”的训练,那么“给我芒果”(复数)的结果就会很差。有时,即使有明显的话,信心也很低,我们必须自己进行预处理
    猜你喜欢
    • 2023-03-26
    • 2013-01-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-04-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多