【发布时间】:2023-03-14 13:49:01
【问题描述】:
我们有一个包含数亿条日志数据记录的数据库。我们正在尝试将此日志数据“分组”为可能与日志数据库中的其他条目具有相同性质。例如:
记录 X 可能包含如下日志条目:
更改分配给服务器 US91 的事务 ABC123
并且记录 Y 可能包含如下日志条目:
更改分配给服务器 GB47 的事务 XYZ789
对于我们人类来说,这两个日志条目很容易识别为可能以某种方式相关。现在,记录 X 和记录 Y 之间可能有 1000 万行。可能还有数千个与 X 和 Y 相似的其他条目,有些完全不同但有其他相似的记录。
我试图确定的是将相似项目组合在一起的最佳方法,并以 XX% 的确定性表示,记录 X 和记录 Y 可能具有相同的性质。或者更好的说法可能是系统会查看记录 Y,并根据您的内容说您最像记录 X,与所有其他记录并列。
我看到有人提到自然语言处理和其他查找字符串之间相似性的方法(例如暴力破解一些 Levenshtein 计算) - 但是对我们来说,我们还有这两个额外的挑战:
- 内容是机器生成的 - 不是人工生成的
- 与我们确定给定查询结果的搜索引擎方法相反,我们尝试对一个巨大的存储库进行分类,并根据它们彼此的相似程度对它们进行分组。
感谢您的意见!
【问题讨论】:
-
您有一些看起来不同的示例记录吗?对我来说,这听起来像是一个聚类问题。
-
我建议聘请统计学家/“数据科学家”。
-
我不同意这是“没有建设性的”。 困难也许;人们当然可以要求更多地考虑什么会/不会被认为是相似的,以及如何对相似性进行“排名”......但话又说回来,人们可能会很容易地寻求解决方案。
标签: artificial-intelligence nlp search-engine data-mining full-text-indexing