【发布时间】:2013-05-18 20:58:04
【问题描述】:
我有很多 SiLK 流数据,我想对其进行一些数据挖掘。看起来目标 IP 列与更下方的一行数据的源 IP 列相匹配。行(包含更多列)如下所示:
UID SIP DIP 协议 SPORT DPORT 720107626538 1207697420 3232248333 17 53 7722 720108826800 3232248333 1207697420 17 47904 53我从未在 R 或 SPSS 中进行过编程,并且无法弄清楚如何将 2 行 27 列数据转换为 1 行 54 列数据。
【问题讨论】:
-
如何去除重复的行?
-
一个数据集中的 DIP 将与第二个数据集中的 SIP 匹配,但只匹配下一个匹配,按 UID 排序。
-
什么定义了重复的确切?如果其他变量相同,只是
SIP和DIP的顺序不同? -
是回流的,所以有不同的端口,时间稍微往后。我认为我应该说冗余而不是重复。
标签: r analysis spss network-traffic