spacy 的自定义规范化
Custom normalisation for spacy
我正在使用 en_core_web_sm
并且正在尝试使其适应我的语料库。
我已经调整了分词器,现在它会根据需要生成分词。
对于我们的语料库,单独处理 end of line
标记很重要。为此,我想为这个令牌做一些事情:
- 通过将
/n
替换为 token.norm_ 中的 [EOL]
来覆盖规范化形式
- 将词性保留为
SPACE
以便将来进行适当的解析
我看到有一个 norm_exceptions.py
文件,其中包含规范化的所有异常。但我不知道如何强制我的 Language
对象使用修改后的配置进行规范化。
如何使用自定义norm_exceptions?
回答我自己的问题。
我最终编写了一个自定义 Tokenizer,以确保所有 /n 字符都是单独的标记。空格也一样。
由于向量化算法不明确,把它看成一个黑盒子,我们最终写了自己的向量化。我们没有使用 spacy 原生向量。
我正在使用 en_core_web_sm
并且正在尝试使其适应我的语料库。
我已经调整了分词器,现在它会根据需要生成分词。
对于我们的语料库,单独处理 end of line
标记很重要。为此,我想为这个令牌做一些事情:
- 通过将
/n
替换为 token.norm_ 中的 - 将词性保留为
SPACE
以便将来进行适当的解析
[EOL]
来覆盖规范化形式
我看到有一个 norm_exceptions.py
文件,其中包含规范化的所有异常。但我不知道如何强制我的 Language
对象使用修改后的配置进行规范化。
如何使用自定义norm_exceptions?
回答我自己的问题。 我最终编写了一个自定义 Tokenizer,以确保所有 /n 字符都是单独的标记。空格也一样。
由于向量化算法不明确,把它看成一个黑盒子,我们最终写了自己的向量化。我们没有使用 spacy 原生向量。