【发布时间】:2011-04-17 06:46:03
【问题描述】:
我正在做一个应用程序,它将从一组事务中计算所有 2 个大小的频繁项集。也就是说,应用程序将输入一个数据文件(空格分隔的文本文件 - 项目编码为整数)和一个百分比,以整数形式给出(例如,输入 2 表示 2%)。应用程序将在一个不同的文件中输出在超过 2% 的所有事务(其中 2% 是输入中给出的百分比)中出现在同一事务中的每一对数字(事务由文件中的一行表示) )。输出文件将包含一行中的每对项目及其支持(它们出现的事务数),应用程序还将输出(在文件中的屏幕上)持续时间(执行任务所需的时间) .
数据文件会像
55 22 33 123 231 414
21 43 432 435 231 4324 534
22 21 33 123 231 534 666 222
...
每一行称为一个事务,输入文件包含数千个事务。 我正在考虑先用数据挖掘规则找出每笔交易中出现频率大于2%的所有单数,然后为每笔交易结对,最后比较每对并生成输出文件。
任何人对此有一些想法或代码,请帮助,如果您有代码(在 java 中更好),这将非常有帮助。非常感谢。
【问题讨论】:
-
我们需要更多信息。使用您的数据,一些示例输出会是什么?
-
输出应该像包含频率的数字对,其出现频率 >=2%,谢谢
标签: java data-mining