word/phrase 最喜欢的计数工具

Favorite tool for word/phrase counting

我正在寻找一种工具,可以对大量开放式文本回复中的单词进行计数,更重要的是,可以对短语进行计数。我还需要能够排除某些词(a、the 和等)。

我知道有一些工具可以执行此操作:

 - http://www.mywritertools.com/default.asp
 - http://www.hermetic.ch/wfca/wfca.htm

以及一些可用的文本挖掘软件列表

 - http://en.wikipedia.org/wiki/List_of_text_mining_software
 - http://academic.csuohio.edu/kneuendorf/content/cpuca/qtap.htm
 - http://www.predictiveanalyticstoday.com/top-30-software-for-text-analysis-text-mining-text-analytics/

其中大部分要么 a) 花钱,要么 b) 提供的 more/different 功能比我需要的多。我不反对为一个像样的工具支付适度的金额(< 100 美元),但我希望先获得一些意见以避免购买不符合我需求的东西。

数据细节:
1) 目前驻留在 SQL 数据库中,但可以转换成任何需要的格式(文本文件,excel,随便什么)
2) 包含开放式响应,以及与特定产品或产品类型相关的类别 ID(例如 "soda" 或 "pepsi")

需要
1) 能够计算常用单词和短语
2) 能够排除单词列表(a、the 和等),这样 "wash car" 和 "wash the car" 将被视为相同的短语

有就好了
1) 能够根据根词进行匹配,以便“wash the car”、“washed the car”和“washes 汽车"全部匹配
2) 能够查看哪些词彼此相邻出现,这样我就可以统计 "wash car"、"wash the car" 和 "car wash" 出现的次数。

锦上添花
1) 能够根据类别进行计数。没什么大不了的,因为类别数量相对较少,我可以 运行 每个类别,但这可能会在未来改变。

请分享任何advice/experience/suggestions!另外,我不反对自己写工具,但不想重新发明轮子。在没有特定工具的情况下,任何可以协助执行此操作(尤其是词根匹配)的库也将不胜感激。

所以看起来这并不是其他任何人真正需要的东西,但为了以防万一,下面是我解决问题的方法。

我使用了 2 种不同的工具:

RapidMiner 文本处理工具非常适合提取 json、分割数据、提取相关数据,然后 tokenizing/normalizing 并在我需要进行的实际处理之前删除常用词。它还允许创建 n-gram,然后进行包括 n-gram 在内的词频分析。非常酷的工具,有更多的可能性。

由于这个特定项目的要求只需要一个短语列表及其频率(可以从 RapidMiner 词频分析的输出中提取它,但需要一些手动工作),我还使用了Hermetic Word Frequency Advanced (HWFA) 工具,它只允许对短语进行计数。

在使用 RapidMiner 对文本进行预处理(标记化、全部小写、删除常用词、词干提取)后,我获取了该输出并 运行 通过 (HWFA) 得到我想要的结果。我对 RapidMiner 如此强大感到惊讶,因为它不可能只返回具有频率的短语,但如果可能的话(它可能是 - 该工具非常强大),我玩弄它的 3 天没有揭开如何。

RapidMiner Studio Basic 和 Text Mining 扩展都是免费的。 HWFA 是 60 美元(如果你问我,价格过高,但在紧要关头成功了)。

希望有一天这能对其他人有所帮助!