word/phrase 最喜欢的计数工具

Question

我正在寻找一种工具，可以对大量开放式文本回复中的单词进行计数，更重要的是，可以对短语进行计数。我还需要能够排除某些词（a、the 和等）。

我知道有一些工具可以执行此操作：

 - http://www.mywritertools.com/default.asp
 - http://www.hermetic.ch/wfca/wfca.htm

以及一些可用的文本挖掘软件列表

 - http://en.wikipedia.org/wiki/List_of_text_mining_software
 - http://academic.csuohio.edu/kneuendorf/content/cpuca/qtap.htm
 - http://www.predictiveanalyticstoday.com/top-30-software-for-text-analysis-text-mining-text-analytics/

其中大部分要么 a) 花钱，要么 b) 提供的 more/different 功能比我需要的多。我不反对为一个像样的工具支付适度的金额（< 100 美元），但我希望先获得一些意见以避免购买不符合我需求的东西。

数据细节：
1) 目前驻留在 SQL 数据库中，但可以转换成任何需要的格式（文本文件，excel，随便什么）
2) 包含开放式响应，以及与特定产品或产品类型相关的类别 ID（例如 "soda" 或 "pepsi"）

需要
1) 能够计算常用单词和短语
2) 能够排除单词列表（a、the 和等），这样 "wash car" 和 "wash the car" 将被视为相同的短语

有就好了
1) 能够根据根词进行匹配，以便“wash the car”、“washed the car”和“washes 汽车"全部匹配
2) 能够查看哪些词彼此相邻出现，这样我就可以统计 "wash car"、"wash the car" 和 "car wash" 出现的次数。

锦上添花
1) 能够根据类别进行计数。没什么大不了的，因为类别数量相对较少，我可以运行每个类别，但这可能会在未来改变。

请分享任何advice/experience/suggestions！另外，我不反对自己写工具，但不想重新发明轮子。在没有特定工具的情况下，任何可以协助执行此操作（尤其是词根匹配）的库也将不胜感激。

Answer 1

所以看起来这并不是其他任何人真正需要的东西，但为了以防万一，下面是我解决问题的方法。

我使用了 2 种不同的工具：

Hermetic Word Frequency Advanced (http://www.hermetic.ch/wfca/wfca.htm)
RapidMiner Studio (https://rapidminer.com/) 通过 RapidMiner Marketplace 添加了文本处理扩展

RapidMiner 文本处理工具非常适合提取 json、分割数据、提取相关数据，然后 tokenizing/normalizing 并在我需要进行的实际处理之前删除常用词。它还允许创建 n-gram，然后进行包括 n-gram 在内的词频分析。非常酷的工具，有更多的可能性。

由于这个特定项目的要求只需要一个短语列表及其频率（可以从 RapidMiner 词频分析的输出中提取它，但需要一些手动工作），我还使用了Hermetic Word Frequency Advanced (HWFA) 工具，它只允许对短语进行计数。

在使用 RapidMiner 对文本进行预处理（标记化、全部小写、删除常用词、词干提取）后，我获取了该输出并运行通过 (HWFA) 得到我想要的结果。我对 RapidMiner 如此强大感到惊讶，因为它不可能只返回具有频率的短语，但如果可能的话（它可能是 - 该工具非常强大），我玩弄它的 3 天没有揭开如何。

RapidMiner Studio Basic 和 Text Mining 扩展都是免费的。 HWFA 是 60 美元（如果你问我，价格过高，但在紧要关头成功了）。

希望有一天这能对其他人有所帮助！

word/phrase 最喜欢的计数工具

Favorite tool for word/phrase counting

full-text-search

text-analysis

text-mining

data-analysis

word-count