我如何访问 Java 中的布朗语料库(又名 NLTK 之外)

How Can I Access the Brown Corpus in Java (aka outside of NLTK)

我正在尝试编写一个在 Java 中使用自然语言词性的​​程序。我一直在 Google 上搜索,但没有找到整个 Brown 语料库(或另一个标记词语料库)。我一直在寻找我不感兴趣的 NLTK 信息。我希望能够将数据加载到 Java 程序中并总结出现的单词(以及它们成为哪个部分的可能性的百分比)讲话)。

不想使用像斯坦福那样的Java库,我想自己玩弄语料库数据。

数据就是数据。 NLTK 数据不是模糊的、加密的或困难的格式。只需编写 java 代码即可阅读。您可能会在 WEKA 中找到快捷方式,也可能不会。

这里是 link Brown Corpus 的下载页面:http://www.nltk.org/nltk_data/

所有文件都是压缩文件。 Brown Corpus Wikipedia 中描述了数据格式。我不知道还能说什么。从那里事情应该是显而易见的。

编辑:如果你想要原始源数据,我认为那里有一些语料库有他们的数据。但是通常关键是让其他人进行采样。另外,请注意维基百科条目中的这一点:"Each sample began at a random sentence-boundary in the article or other unit chosen, and continued up to the first sentence boundary after 2,000 words." 所以布朗语料库的数据基本上是随机的。即使你有原始文本,你也可能无法猜出他们在哪里采样。

如果您不想弄乱 NLTK 界面:Brown 语料库已存放在 Internet Archive (archive.org)。在 https://archive.org/details/BrownCorpus 上,您会找到一个 link 到包含整个语料库的 zip 存档。 (也是一个 torrent link,但 3.2 MB 似乎不值得。)