我如何访问 Java 中的布朗语料库（又名 NLTK 之外）

How Can I Access the Brown Corpus in Java (aka outside of NLTK)

我正在尝试编写一个在 Java 中使用自然语言词性的程序。我一直在 Google 上搜索，但没有找到整个 Brown 语料库（或另一个标记词语料库）。我一直在寻找我不感兴趣的 NLTK 信息。我希望能够将数据加载到 Java 程序中并总结出现的单词（以及它们成为哪个部分的可能性的百分比）讲话）。

我不想使用像斯坦福那样的Java库，我想自己玩弄语料库数据。

数据就是数据。 NLTK 数据不是模糊的、加密的或困难的格式。只需编写 java 代码即可阅读。您可能会在 WEKA 中找到快捷方式，也可能不会。

这里是 link Brown Corpus 的下载页面：http://www.nltk.org/nltk_data/

所有文件都是压缩文件。 Brown Corpus Wikipedia 中描述了数据格式。我不知道还能说什么。从那里事情应该是显而易见的。

编辑：如果你想要原始源数据，我认为那里有一些语料库有他们的数据。但是通常关键是让其他人进行采样。另外，请注意维基百科条目中的这一点："Each sample began at a random sentence-boundary in the article or other unit chosen, and continued up to the first sentence boundary after 2,000 words." 所以布朗语料库的数据基本上是随机的。即使你有原始文本，你也可能无法猜出他们在哪里采样。

如果您不想弄乱 NLTK 界面：Brown 语料库已存放在 Internet Archive (archive.org)。在 https://archive.org/details/BrownCorpus 上，您会找到一个 link 到包含整个语料库的 zip 存档。（也是一个 torrent link，但 3.2 MB 似乎不值得。）

我如何访问 Java 中的布朗语料库（又名 NLTK 之外）

How Can I Access the Brown Corpus in Java (aka outside of NLTK)

java

nlp

corpus

nltk

tagged-corpus