使用特定语料库创建搭配

Create Collocation with a specific corpus

我正在做一个项目,我正在尝试做一些研究。我希望能够找到单词的搭配,使用特定的语料库。我希望有一些 SDK 可以用来完成此类工作。我看了这个选项:

https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/trees/CollocationFinder.html

并找到了一个名为 CollocationFinder 的 class,但找不到太多文档或不知道是否有指定语料库的方法。

我还找到了一个叫 JXtract (http://definingterms.com/projects/Champollion/#smadja93) 的项目,但它似乎很老了,作者说它肯定有错误。

有人知道我可以用来开发软件的好库吗?允许选择语料库以及可能选择不同方法来确定搭配的东西?

Stanford CoreNLP 中的 CollocationFinder class 的目的是将单词合并成一个单一的搭配标记。搭配是从 WordNet 中找到的,因此 class 不会帮助从语料库中自动提取搭配。

由于您没有指定它必须是 Java 解,所以有 a collocation (and a concordancer) app built using NLTK (Python)。它满足您的要求(一个很好的库 [for NLP],允许 [s] 选择语料库,您自然可以编写任何不同的方法来确定搭配 - NLTK 中的 TK 代表 "tool-kit"!)