【问题标题】:what is appropriate for me? generateAllGrams() or is generateCollocations() enough for me?什么适合我? generateAllGrams() 或 generateCollocations() 对我来说足够了吗?
【发布时间】:2011-03-14 07:08:25
【问题描述】:

我正在开发一个基于 wordnet 的文档 summaryr.in 的项目,我需要提取搭配。我尝试尽可能多地进行研究,但由于在我难以理解 CollocDriver.java 的工作原理(在 API 上下文中)之前我没有使用过 Mahout

在网上搜索时,我发现了这个: Mahout Collocations

这是问题所在:我有一个 POSTagged 输入文本。我需要识别其中的搭配。我有 collocdriver.java 代码..现在我需要知道如何使用它?是使用 generateAllGrams() 方法还是只使用 generateCollocations() 方法对于我的摘要器中的子任务就足够了..??

最重要的是如何使用它?我提出这个问题是因为我承认,我不太了解 API,

我也得到了 grepcode version of collocdriver ,这两个实现似乎略有不同..输入是 grepcode 版本的字符串和原始路径对象的形式...

我的问题:输入参数中的配置对象是什么以及如何使用它?源/目标将是字符串(如 grepcode)还是路径(如原始)? 输出会是什么?

我在 collocdriver 程序上做了一些进一步的研发...我发现它使用了一个序列文件然后矢量生成...我想知道这个序列文件/矢量生成是如何工作的..请帮助..

【问题讨论】:

    标签: mahout summarization


    【解决方案1】:

    要使用mahout获得搭配,你需要遵循一些简单的步骤

    1) 你必须从你的输入文本文件中创建一个序列文件。

    /bin/mahout seqdirectory -i /home/developer/Desktop/colloc/ -o /home/developer/Desktop/colloc/test-seqdir -c UTF-8 -chunk 5

    2)有两种方法可以从序列文件中生成搭配。

    a)Convert sequence file to sparse vector and find out the collocation
    b)Directly find out the collocation from the sequence file (with out creating the sparse vector)
    

    3)这里我正在考虑选择b。

    /bin/mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i /home/developer/Desktop/colloc/test-seqdir -o /home/developer/Desktop/colloc/test-colloc -a org.apache.mahout.vectorizer.DefaultAnalyzer -ng 3 -p

    只需检查输出文件夹,您需要的文件就在那里!!! (按顺序文件格式)

    /bin/mahout seqdumper -s /home/developer/Desktop/colloc/test-colloc/ngrams/part-r-00000 >> out.txt 会给你一个文本输出!!!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-05-03
      • 2021-12-03
      • 2013-06-27
      • 1970-01-01
      • 1970-01-01
      • 2012-06-20
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多