分析 MySQL 文本数据

Analyze MySQL Text Data

这很奇怪,但我发现 Whosebug 社区非常有帮助。我有 mySQL Table 一列充满了已解析的文本数据。我想分析数据并查看出现了多少行单词。

ID     columnName
1      Car
2      Dog
3      CAR CAR car CAR

从上面的示例中,我想要返回的是单词 CAR 出现在两行中,单词 Dog 出现在 1 行中。我真的不在乎字数是多少,而是这个字出现在多少行。问题是我不知道要搜索哪些字。有没有一种工具,或者我可以在 python 中构建的东西,可以向我显示最常用的单词以及这些单词出现在多少行中。 我不知道从哪里开始,如果有人可以帮助我,那就太好了。

我会使用 python:

1) 设置 python 以使用 mysql(大量在线教程)

2) 定义:

from collections import defaultdict
tokenDict = defaultdict(lambda: 0)

前者是一个简单的字典,如果给定键没有值,returns 0(即 tokenDict['i_have_never_used_this_key_before'] 将 return 0)

3) 从 table 中读取每一行,将其标记化并增加标记计数

tokens = row.split(' ') //tokenize
tokens = [lower(t) for t in tokens] //lowercase
tokens = set(tokens) //remove duplicates
for token in tokens:
    tokenDict[token] = tokenDict[token] + 1