【问题标题】:watson special character, repeat posts, and url handlingWatson 特殊字符、重复帖子和 url 处理
【发布时间】:2017-03-29 21:48:01
【问题描述】:

在使用 watson 个性洞察 API 时,我已经注意到一些奇怪的趋势,包括许多得分在各个维度上的平均值(例如,与许多人的合意度约为 0.27),这让我觉得这是在归因于某些东西。

在审查时,我注意到一个语言错位问题(即,如果它认为是英语,如果是西班牙语,你可能会得到奇怪的结果),这导致我询问,但没有找到答案:

沃森如何处理: 1) 消息中的网址(例如,许多推特帖子都有网址) 2)重复发帖(很多频道重复发帖很多次) 3) 特殊字符(很多帖子都有大量随机特殊字符)

我的目标是确定需要进行多少预处理才能使 watson 最有效。

【问题讨论】:

    标签: ibm-cloud ibm-watson personality-insights


    【解决方案1】:

    你说得对,如果语言没有对齐,那么你会得到不正确的结果。

    Pi API 首先从内容语言标头确定语言。如果缺少,那么如果内容类型是 json,那么它会查看 json 内容中的语言,选择出现次数最多的语言,最后,如果缺少,它将默认为默认语言,即英文。

    因此,简而言之,建议(将在未来的更新中成为必需)始终发送内容语言标头。

    其次,关于你的内容问题: - URL:服务将尝试删除这些。我不能保证它会删除所有可能的选项,因为 url 规范有一些非常深奥的选项,但我们会删除常见的格式。 - 重复帖子:如果您在同一个帖子中发送两次,那么它将被计算两次。我们不对发送到服务的文本进行重复数据删除。 - 特殊的角色;我假设您在这里指的是表情符号。这些都包含在我们的处理中,因为基础模型也是根据包含它们的数据进行训练的,因此它们是服务使用的众多信号之一。

    【讨论】:

    • 问题,鉴于您有特定的语言,watson 是如何处理俚语的?我假设给定您指定的语言,俚语得到“有条件地”参数化? (即“dude”或“homie”将得到不同的参数化,正确,如果你说文本是西班牙语或英语?)。对提供者所需语言识别的理念更加好奇。
    • 关于表情符号,它是 utf-8 格式,还是通过标点符号生成的原始格式。 this :) vs ☹ 总的来说,问题是我们应该如何使用 watson 对数据进行预处理以达到最优。
    • Watson Personality Insights 服务经过各种 Twitter 数据的训练,因此您是对的,该俚语将根据指定的语言进行处理。高水平;每种语言中的每个特征都有自己的模型,因此如果训练数据包含一些俚语,那么该语言的模型会提取这些俚语。
    • 对于表情符号,你不需要做任何预处理。如果服务发现相关信号,则两种形式都可以使用(也就是说,您可以发送任何一种,如果模型发现它与特征之间存在相关性,它们可能会被使用)。
    • 这是很棒的信息。感谢您增加清晰度。这是一个非常有趣的领域,我们应该找个时间聊聊!
    猜你喜欢
    • 2013-08-25
    • 1970-01-01
    • 2012-08-20
    • 1970-01-01
    • 1970-01-01
    • 2013-06-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多