为不同的词嵌入算法预处理语料库

Preprocessing a corpus for different Word Embedding Algorithms

对于我的学士论文,我需要在同一个语料库上训练不同的词嵌入算法来对它们进行基准测试。 我正在寻找预处理步骤,但不确定要使用哪些,哪些可能用处不大。

我已经进行了一些研究,但也想问问是否有人有这方面的经验。

我的objective是在同一个语料库上训练Word2Vec、FastText和GloVe Embeddings。现在不太确定是哪一个,但我想到了维基百科或类似的东西。

我认为:

是合乎逻辑的选项。

但我听说删除停用词可能有点棘手,因为自动删除停用词可能不适合任何 model/corpus。

我还没有决定是选择spacy还是nltk作为库,spacy更强大,但nltk主要用在我写的椅子上。

预处理就像超参数优化或神经架构搜索。 “我应该使用哪个”没有理论上的答案。该领域的应用部分(NLP)远远领先于理论。您只需 运行 种不同的组合,直到找到最有效的组合(根据您选择的指标)。

是的,维基百科很棒,几乎每个人都在使用它(加上其他数据集)。我试过 spacy 并且它很强大,但我认为我用它犯了一个错误,我最终编写了我自己的标记器,它工作得更好。 YMMV。再一次,你只需要跳进去尝试几乎所有的东西。请与您的顾问确认您是否有足够的时间和计算资源。