最喜欢的单词/短语计数工具答案

【问题标题】：Favorite tool for word/phrase counting最喜欢的单词/短语计数工具
【发布时间】：2015-10-20 16:22:05
【问题描述】：

我正在寻找一种工具，可以在大量开放式文本响应中执行单词计数，更重要的是，短语计数。我还需要排除某些单词（a、the 和等）的能力。

我知道有一些工具可以做到这一点：

 - http://www.mywritertools.com/default.asp
 - http://www.hermetic.ch/wfca/wfca.htm

以及一些可用的文本挖掘软件列表

 - http://en.wikipedia.org/wiki/List_of_text_mining_software
 - http://academic.csuohio.edu/kneuendorf/content/cpuca/qtap.htm
 - http://www.predictiveanalyticstoday.com/top-30-software-for-text-analysis-text-mining-text-analytics/

其中大多数要么 a) 花钱，要么 b) 提供比我需要的更多/不同的功能。我不反对为一个像样的工具支付适度的金额（

数据细节：
1) 当前驻留在 SQL 数据库中，但可以转换为所需的任何格式（文本文件、excel 等）
2) 包含开放式响应，以及与特定产品或产品类型相关的类别 ID（例如“苏打水”或“百事可乐”）

需要
1) 能够计算常用单词和短语
2) 能够排除单词列表（a、the 和等），这样“洗车”和“洗 the 汽车”将被视为同一个短语

会很高兴
1) 能够根据词根匹配“wash the car”、“washed the car”和“washes the car”匹配
2) 能够看到哪些单词出现在彼此附近，这样我就可以计算出“洗车”、“洗车”和“洗车”出现的次数。

锦上添花
1) 能够根据类别进行计数。没什么大不了的，因为类别的数量相对较少，我可以单独运行每个类别，但将来可能会改变。

请分享任何建议/经验/建议！另外，我不反对编写自己的工具，但不想重新发明轮子。在没有特定工具的情况下，任何可以帮助执行此操作的库（特别是对于根词匹配）也将不胜感激。

【问题讨论】：

标签： full-text-search text-mining data-analysis word-count text-analysis

【解决方案1】：

所以看起来这不是其他人真正需要的东西，但以防万一，这就是我解决问题的方法。

我使用了 2 种不同的工具：

高级密封词频 (http://www.hermetic.ch/wfca/wfca.htm)
RapidMiner Studio (https://rapidminer.com/) 通过 RapidMiner Marketplace 添加了文本处理扩展

RapidMiner 文本处理工具非常适合提取 json、分割数据、提取相关数据，然后在我需要做的实际处理之前进行标记/规范化和删除常用词。它还允许创建 n-gram，然后进行包括 n-gram 在内的词频分析。非常酷的工具，有更多的可能性。

由于这个特定项目的要求只需要一个带有频率的短语列表（可以从 RapidMiner 词频分析的输出中提取，但需要一些手动工作），我还使用了 Hermetic Word Frequency Advanced (HWFA) 工具，允许仅计算短语。

在使用 RapidMiner 对文本进行预处理（标记、全部小写、删除常用词、词干）之后，我获取了该输出并通过 (HWFA) 运行它以获得我想要的结果。我对 RapidMiner 的强大功能感到惊讶，因为它不可能只用它们的频率恢复短语，但如果有可能（它可能是 - 该工具非常强大），我 3 天玩弄它并没有'不要揭示如何。

RapidMiner Studio Basic 和文本挖掘扩展都是免费的。 HWFA 是 60 美元（如果您问我，价格过高，但在紧要关头成功了）。

希望有一天这可以帮助其他人！

【讨论】：