计算维基百科中单词的频率

Counting the frequency of a words in Wikipedia

我需要从维基百科中提取信息,但我不知道如何进行。我需要做的是:

给定一个词'w',我如何计算'w'在整个英文维基百科中出现的次数?是否有在线可用的列表?如果不是,我怎么能做这样的事?我是编码新手,我正在尝试在一些与 NLP 相关的任务中做一些实验。

首先下载维基百科转储(例如 XML 格式)
如果您使用的是基于 UNIX 的 OS(例如 LINUX 或 Mac OS X),您可以使用 grep。 见 here

Python也可用于计算文件中指定字符串的出现次数
here