【发布时间】:2015-02-13 07:54:05
【问题描述】:
我正在解决在日志文件中查找类似内容的问题。假设我有一个如下所示的日志文件:
show version
Operating System (OS) Software
Software
BIOS: version 1.0.10
loader: version N/A
kickstart: version 4.2(7b)
system: version 4.2(7b)
BIOS compile time: 01/08/09
kickstart image file is: bootflash:/m9500-sf2ek9-kickstart-mz.4.2.7b.bin
kickstart compile time: 8/16/2010 13:00:00 [09/29/2010 23:10:48]
system image file is: bootflash:/m9500-sf2ek9-mz.4.2.7b.bin
system compile time: 8/16/2010 13:00:00 [09/30/2010 00:46:36]`
Hardware
xxxx MDS 9509 (9 Slot) Chassis ("xxxxxxx/xxxxx-2")
xxxxxxx, xxxx with 1033100 kB of memory.
Processor Board ID xxxx
Device name: xxx-xxx-1
bootflash: 1000440 kB
slot0: 0 kB (expansion flash)
对于人眼来说,很容易理解“软件”和下面的数据是一个部分,“硬件”和下面的数据是另一个部分。有没有一种方法可以使用机器学习或其他技术进行建模,以根据模式对相似部分进行聚类?此外,我展示了 2 种类似的模式,但部分之间的模式可能会有所不同,因此应该识别为不同的部分。我曾尝试使用余弦相似度来找到相似度,但这并没有太大帮助,因为单词不相似,但模式相似。
【问题讨论】:
-
你能更好地定义问题吗?你到底想要什么输出?
标签: machine-learning nlp artificial-intelligence