【问题标题】:Favorite tool for word/phrase counting最喜欢的单词/短语计数工具
【发布时间】:2015-10-20 16:22:05
【问题描述】:

我正在寻找一种工具,可以在大量开放式文本响应中执行单词计数,更重要的是,短语计数。我还需要排除某些单词(a、the 和等)的能力。

我知道有一些工具可以做到这一点:

 - http://www.mywritertools.com/default.asp
 - http://www.hermetic.ch/wfca/wfca.htm

以及一些可用的文本挖掘软件列表

 - http://en.wikipedia.org/wiki/List_of_text_mining_software
 - http://academic.csuohio.edu/kneuendorf/content/cpuca/qtap.htm
 - http://www.predictiveanalyticstoday.com/top-30-software-for-text-analysis-text-mining-text-analytics/

其中大多数要么 a) 花钱,要么 b) 提供比我需要的更多/不同的功能。我不反对为一个像样的工具支付适度的金额(

数据细节:
1) 当前驻留在 SQL 数据库中,但可以转换为所需的任何格式(文本文件、excel 等)
2) 包含开放式响应,以及与特定产品或产品类型相关的类别 ID(例如“苏打水”或“百事可乐”)

需要
1) 能够计算常用单词和短语
2) 能够排除单词列表(a、the 和等),这样“洗车”和“洗 the 汽车”将被视为同一个短语

会很高兴
1) 能够根据词根匹配“wash the car”、“washed the car”和“washes the car”匹配
2) 能够看到哪些单词出现在彼此附近,这样我就可以计算出“洗车”、“洗车”和“洗车”出现的次数。

锦上添花
1) 能够根据类别进行计数。没什么大不了的,因为类别的数量相对较少,我可以单独运行每个类别,但将来可能会改变。

请分享任何建议/经验/建议!另外,我不反对编写自己的工具,但不想重新发明轮子。在没有特定工具的情况下,任何可以帮助执行此操作的库(特别是对于根词匹配)也将不胜感激。

【问题讨论】:

    标签: full-text-search text-mining data-analysis word-count text-analysis


    【解决方案1】:

    所以看起来这不是其他人真正需要的东西,但以防万一,这就是我解决问题的方法。

    我使用了 2 种不同的工具:

    RapidMiner 文本处理工具非常适合提取 json、分割数据、提取相关数据,然后在我需要做的实际处理之前进行标记/规范化和删除常用词。它还允许创建 n-gram,然后进行包括 n-gram 在内的词频分析。非常酷的工具,有更多的可能性。

    由于这个特定项目的要求只需要一个带有频率的短语列表(可以从 RapidMiner 词频分析的输出中提取,但需要一些手动工作),我还使用了 Hermetic Word Frequency Advanced (HWFA) 工具,允许仅计算短语。

    在使用 RapidMiner 对文本进行预处理(标记、全部小写、删除常用词、词干)之后,我获取了该输出并通过 (HWFA) 运行它以获得我想要的结果。我对 RapidMiner 的强大功能感到惊讶,因为它不可能只用它们的频率恢复短语,但如果有可能(它可能是 - 该工具非常强大),我 3 天玩弄它并没有'不要揭示如何。

    RapidMiner Studio Basic 和文本挖掘扩展都是免费的。 HWFA 是 60 美元(如果您问我,价格过高,但在紧要关头成功了)。

    希望有一天这可以帮助其他人!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-09-06
      • 2020-05-30
      • 2018-10-04
      • 1970-01-01
      • 1970-01-01
      • 2010-09-13
      • 1970-01-01
      • 2016-06-28
      相关资源
      最近更新 更多