spacy 的自定义规范化

Custom normalisation for spacy

我正在使用 en_core_web_sm 并且正在尝试使其适应我的语料库。 我已经调整了分词器,现在它会根据需要生成分词。

对于我们的语料库,单独处理 end of line 标记很重要。为此,我想为这个令牌做一些事情:

我看到有一个 norm_exceptions.py 文件,其中包含规范化的所有异常。但我不知道如何强制我的 Language 对象使用修改后的配置进行规范化。

如何使用自定义norm_exceptions?

回答我自己的问题。 我最终编写了一个自定义 Tokenizer,以确保所有 /n 字符都是单独的标记。空格也一样。

由于向量化算法不明确,把它看成一个黑盒子,我们最终写了自己的向量化。我们没有使用 spacy 原生向量。