【问题标题】:How to find correlation and relationship between data如何找到数据之间的相关性和关系
【发布时间】:2017-01-22 19:25:07
【问题描述】:

我正在使用某些 API(实时流媒体 API)收集有关当前正在发生的特定事件的数据(文本)。我收到的数据基于我传递给 API 的默认关键字列表。除了我的默认关键字之外,API 还收集文本中出现的关键字,然后将它们添加到我的默认列表中,以便 API 也可以使用这些关键字搜索数据。这就是问题发生的地方,因为其中一些新添加的关键字与事件无关。我不想只在我的默认列表上限制数据搜索,因为我无法涵盖文本中使用的所有关键字。

到目前为止,我的解决方案是尝试对每 1000 个接收到的数据进行 点双列相关系数,但我不确定这是否是正确的方法以及如何去做。

如果有人可以就如何解决这个问题给我建议或任何解决方案,我将不胜感激?

【问题讨论】:

    标签: statistics frequency correlation pearson-correlation


    【解决方案1】:

    您可以使用术语共现来处理关键字集合,应该提供与您的默认列表更好的相关性。 This 是一个示例,但您可以显着改进算法。

    【讨论】:

    • 非常感谢,这正是我想要的!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-03-29
    • 2020-04-23
    • 1970-01-01
    • 2015-08-24
    • 1970-01-01
    相关资源
    最近更新 更多