spacy 的自定义规范化

Custom normalisation for spacy

我正在使用 en_core_web_sm 并且正在尝试使其适应我的语料库。我已经调整了分词器，现在它会根据需要生成分词。

对于我们的语料库，单独处理 end of line 标记很重要。为此，我想为这个令牌做一些事情：

[EOL]

我看到有一个 norm_exceptions.py 文件，其中包含规范化的所有异常。但我不知道如何强制我的 Language 对象使用修改后的配置进行规范化。

如何使用自定义norm_exceptions？

回答我自己的问题。我最终编写了一个自定义 Tokenizer，以确保所有 /n 字符都是单独的标记。空格也一样。

由于向量化算法不明确，把它看成一个黑盒子，我们最终写了自己的向量化。我们没有使用 spacy 原生向量。