Watson 特殊字符、重复帖子和 url 处理答案

【问题标题】：watson special character, repeat posts, and url handlingWatson 特殊字符、重复帖子和 url 处理
【发布时间】：2017-03-29 21:48:01
【问题描述】：

在使用 watson 个性洞察 API 时，我已经注意到一些奇怪的趋势，包括许多得分在各个维度上的平均值（例如，与许多人的合意度约为 0.27），这让我觉得这是在归因于某些东西。

在审查时，我注意到一个语言错位问题（即，如果它认为是英语，如果是西班牙语，你可能会得到奇怪的结果），这导致我询问，但没有找到答案：

沃森如何处理： 1) 消息中的网址（例如，许多推特帖子都有网址） 2）重复发帖（很多频道重复发帖很多次） 3) 特殊字符（很多帖子都有大量随机特殊字符）

我的目标是确定需要进行多少预处理才能使 watson 最有效。

【问题讨论】：

标签： ibm-cloud ibm-watson personality-insights

【解决方案1】：

你说得对，如果语言没有对齐，那么你会得到不正确的结果。

Pi API 首先从内容语言标头确定语言。如果缺少，那么如果内容类型是 json，那么它会查看 json 内容中的语言，选择出现次数最多的语言，最后，如果缺少，它将默认为默认语言，即英文。

因此，简而言之，建议（将在未来的更新中成为必需）始终发送内容语言标头。

其次，关于你的内容问题： - URL：服务将尝试删除这些。我不能保证它会删除所有可能的选项，因为 url 规范有一些非常深奥的选项，但我们会删除常见的格式。 - 重复帖子：如果您在同一个帖子中发送两次，那么它将被计算两次。我们不对发送到服务的文本进行重复数据删除。 - 特殊的角色;我假设您在这里指的是表情符号。这些都包含在我们的处理中，因为基础模型也是根据包含它们的数据进行训练的，因此它们是服务使用的众多信号之一。

【讨论】：

问题，鉴于您有特定的语言，watson 是如何处理俚语的？我假设给定您指定的语言，俚语得到“有条件地”参数化？（即“dude”或“homie”将得到不同的参数化，正确，如果你说文本是西班牙语或英语？）。对提供者所需语言识别的理念更加好奇。
关于表情符号，它是 utf-8 格式，还是通过标点符号生成的原始格式。 this :) vs ☹ 总的来说，问题是我们应该如何使用 watson 对数据进行预处理以达到最优。
Watson Personality Insights 服务经过各种 Twitter 数据的训练，因此您是对的，该俚语将根据指定的语言进行处理。高水平；每种语言中的每个特征都有自己的模型，因此如果训练数据包含一些俚语，那么该语言的模型会提取这些俚语。
对于表情符号，你不需要做任何预处理。如果服务发现相关信号，则两种形式都可以使用（也就是说，您可以发送任何一种，如果模型发现它与特征之间存在相关性，它们可能会被使用）。
这是很棒的信息。感谢您增加清晰度。这是一个非常有趣的领域，我们应该找个时间聊聊！