【发布时间】:2015-03-12 04:48:13
【问题描述】:
我有一个 tsv 文件,它在类、id 和文本中分开,例如
positive 2342 This is very good.
negative 4343 I hate it.
我正在尝试输入 Mahout 的 nbayes 以将文本部分分类为 pos 或 neg。
我的第一次尝试是在每一行上使用 mahout seqdirectory 命令作为其类目录中的单独文件。这适用于少量数据,但最终在大约 30 GB 的数据时会因 OutOfMemoryException 而失败。增加堆大小失败并显示“超出 GC 开销限制”可能是因为大量单独的文件。
我的第二次尝试是将数据加载到配置单元表中并将其转换为序列文件,如此处所述 [0],起初似乎工作正常,但在创建矢量文件并拆分数据集之后trainnb 步骤因 ArrayIndexOutOfBounds 异常而失败。
[0]http://files.meetup.com/6195792/Working%20With%20Mahout.pdf
现在我不知道要寻找什么。任何想法如何将 tsv 文件或配置单元表转换为序列文件,因为它是由目录上的 seqdirectory 命令生成的?
【问题讨论】:
标签: apache hadoop machine-learning mahout