【问题标题】:Algorithms/methods to compile forum discussions into categorized articles or information?将论坛讨论编译成分类文章或信息的算法/方法?
【发布时间】:2012-01-07 09:48:29
【问题描述】:

我正在为网络设计和编写一个基于 Java 的基于知识的社区共享系统(论坛、问答、学生、教授和专家之间的文章共享)。

我需要使用一些数据挖掘/文本处理技术/算法来分析专家和学生之间的讨论(使用标签对讨论进行分类),并针对特定的相似主题创建适当的注释和汇编。

我不是此类可用算法或工具的专家。如果有人能给我一些指示或解释我如何解决这个问题,那就太好了。

谢谢!!

【问题讨论】:

    标签: java data-mining text-mining


    【解决方案1】:

    开始阅读文本挖掘。您的问题没有一般的答案,因为它不够精确。你必须更精确地确定你的目标,然后人们才能为这些建议方法。你的“分析”太宽泛了。数字数也是“分析”!

    那么:你想识别、分组或预测什么?

    【讨论】:

    • 感谢您的回答。基本上,我希望该程序能够总结彼此相似的讨论(共享最大标签和类似的问题/主题),以便人们稍后阅读。例如,假设一个问题有 20 到 25 个答案,长短不一,提问者选择了最佳答案,也可能给其他人打分。该算法需要选择一组相似的问题(比如 2/3)并以基本问题(答案+辩论/挑战)格式生成摘要。
    【解决方案2】:

    对于文章的分类,您可以使用 LSA(潜在语义分析)技术。

    您可以查看这些工具进行文本处理。

    1. LingPipe:处理文本的工具包。

    2. Lucene:文本挖掘

    3. Solr:强大的文本搜索工具

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-08-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-04-15
      相关资源
      最近更新 更多