【发布时间】:2011-03-14 07:08:25
【问题描述】:
我正在开发一个基于 wordnet 的文档 summaryr.in 的项目,我需要提取搭配。我尝试尽可能多地进行研究,但由于在我难以理解 CollocDriver.java 的工作原理(在 API 上下文中)之前我没有使用过 Mahout
在网上搜索时,我发现了这个: Mahout Collocations
这是问题所在:我有一个 POSTagged 输入文本。我需要识别其中的搭配。我有 collocdriver.java 代码..现在我需要知道如何使用它?是使用 generateAllGrams() 方法还是只使用 generateCollocations() 方法对于我的摘要器中的子任务就足够了..??
最重要的是如何使用它?我提出这个问题是因为我承认,我不太了解 API,
我也得到了 grepcode version of collocdriver ,这两个实现似乎略有不同..输入是 grepcode 版本的字符串和原始路径对象的形式...
我的问题:输入参数中的配置对象是什么以及如何使用它?源/目标将是字符串(如 grepcode)还是路径(如原始)? 输出会是什么?
我在 collocdriver 程序上做了一些进一步的研发...我发现它使用了一个序列文件然后矢量生成...我想知道这个序列文件/矢量生成是如何工作的..请帮助..
【问题讨论】:
标签: mahout summarization