运行 GPU 上的 huggingface Bert 分词器

Running huggingface Bert tokenizer on GPU

我正在处理用于内容分类的庞大文本数据集。我已经实现了 distilbert 模型和 distilberttokenizer.from_pretrained() 分词器.. 这个分词器花费了非常长的时间来分词我的文本数据,仅 14k 条记录大约需要 7 分钟,这是因为它 运行s 在我的 CPU.

有什么方法可以在我的 GPU 上强制分词器 运行。

标记化是字符串操作。它基本上是一个带有一堆 if-else 条件和字典查找的字符串的 for 循环。使用 GPU 无法加快速度。基本上,GPU 唯一能做的就是张量乘法和加法。只有可以使用张量运算制定的问题才能使用 GPU 进行加速。

Huggingface Transformers 中的默认分词器在 Python 中实现。有一个用 Rust 实现的更快的版本。您可以从独立包 Huggingface Tokenziers or in newer versions of Transformers, they should be available under DistilBertTokenizerFast.

中获取它