什么适合我？ generateAllGrams() 或 generateCollocations() 对我来说足够了吗？答案

【问题标题】：what is appropriate for me? generateAllGrams() or is generateCollocations() enough for me?什么适合我？ generateAllGrams() 或 generateCollocations() 对我来说足够了吗？
【发布时间】：2011-03-14 07:08:25
【问题描述】：

我正在开发一个基于 wordnet 的文档 summaryr.in 的项目，我需要提取搭配。我尝试尽可能多地进行研究，但由于在我难以理解 CollocDriver.java 的工作原理（在 API 上下文中）之前我没有使用过 Mahout

在网上搜索时，我发现了这个： Mahout Collocations

这是问题所在：我有一个 POSTagged 输入文本。我需要识别其中的搭配。我有 collocdriver.java 代码..现在我需要知道如何使用它？是使用 generateAllGrams() 方法还是只使用 generateCollocations() 方法对于我的摘要器中的子任务就足够了..??

最重要的是如何使用它？我提出这个问题是因为我承认，我不太了解 API，

我也得到了 grepcode version of collocdriver ，这两个实现似乎略有不同..输入是 grepcode 版本的字符串和原始路径对象的形式...

我的问题：输入参数中的配置对象是什么以及如何使用它？源/目标将是字符串（如 grepcode）还是路径（如原始）？输出会是什么？

我在 collocdriver 程序上做了一些进一步的研发...我发现它使用了一个序列文件然后矢量生成...我想知道这个序列文件/矢量生成是如何工作的..请帮助..

【问题讨论】：

标签： mahout summarization

【解决方案1】：

要使用mahout获得搭配，你需要遵循一些简单的步骤

1) 你必须从你的输入文本文件中创建一个序列文件。

/bin/mahout seqdirectory -i /home/developer/Desktop/colloc/ -o /home/developer/Desktop/colloc/test-seqdir -c UTF-8 -chunk 5

2)有两种方法可以从序列文件中生成搭配。

a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)

3)这里我正在考虑选择b。

/bin/mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i /home/developer/Desktop/colloc/test-seqdir -o /home/developer/Desktop/colloc/test-colloc -a org.apache.mahout.vectorizer.DefaultAnalyzer -ng 3 -p

只需检查输出文件夹，您需要的文件就在那里！！！（按顺序文件格式）

/bin/mahout seqdumper -s /home/developer/Desktop/colloc/test-colloc/ngrams/part-r-00000 >> out.txt 会给你一个文本输出！！！

【讨论】：