【发布时间】:2015-10-20 16:22:05
【问题描述】:
我正在寻找一种工具,可以在大量开放式文本响应中执行单词计数,更重要的是,短语计数。我还需要排除某些单词(a、the 和等)的能力。
我知道有一些工具可以做到这一点:
- http://www.mywritertools.com/default.asp
- http://www.hermetic.ch/wfca/wfca.htm
以及一些可用的文本挖掘软件列表
- http://en.wikipedia.org/wiki/List_of_text_mining_software
- http://academic.csuohio.edu/kneuendorf/content/cpuca/qtap.htm
- http://www.predictiveanalyticstoday.com/top-30-software-for-text-analysis-text-mining-text-analytics/
其中大多数要么 a) 花钱,要么 b) 提供比我需要的更多/不同的功能。我不反对为一个像样的工具支付适度的金额(
数据细节:
1) 当前驻留在 SQL 数据库中,但可以转换为所需的任何格式(文本文件、excel 等)
2) 包含开放式响应,以及与特定产品或产品类型相关的类别 ID(例如“苏打水”或“百事可乐”)
需要
1) 能够计算常用单词和短语
2) 能够排除单词列表(a、the 和等),这样“洗车”和“洗 the 汽车”将被视为同一个短语
会很高兴
1) 能够根据词根匹配“wash the car”、“washed the car”和“washes the car”匹配
2) 能够看到哪些单词出现在彼此附近,这样我就可以计算出“洗车”、“洗车”和“洗车”出现的次数。
锦上添花
1) 能够根据类别进行计数。没什么大不了的,因为类别的数量相对较少,我可以单独运行每个类别,但将来可能会改变。
请分享任何建议/经验/建议!另外,我不反对编写自己的工具,但不想重新发明轮子。在没有特定工具的情况下,任何可以帮助执行此操作的库(特别是对于根词匹配)也将不胜感激。
【问题讨论】:
标签: full-text-search text-mining data-analysis word-count text-analysis