运行 GPU 上的 huggingface Bert 分词器
Running huggingface Bert tokenizer on GPU
我正在处理用于内容分类的庞大文本数据集。我已经实现了 distilbert 模型和 distilberttokenizer.from_pretrained() 分词器..
这个分词器花费了非常长的时间来分词我的文本数据,仅 14k 条记录大约需要 7 分钟,这是因为它 运行s 在我的 CPU.
上
有什么方法可以在我的 GPU 上强制分词器 运行。
标记化是字符串操作。它基本上是一个带有一堆 if-else 条件和字典查找的字符串的 for 循环。使用 GPU 无法加快速度。基本上,GPU 唯一能做的就是张量乘法和加法。只有可以使用张量运算制定的问题才能使用 GPU 进行加速。
Huggingface Transformers 中的默认分词器在 Python 中实现。有一个用 Rust 实现的更快的版本。您可以从独立包 Huggingface Tokenziers or in newer versions of Transformers, they should be available under DistilBertTokenizerFast
.
中获取它
我正在处理用于内容分类的庞大文本数据集。我已经实现了 distilbert 模型和 distilberttokenizer.from_pretrained() 分词器.. 这个分词器花费了非常长的时间来分词我的文本数据,仅 14k 条记录大约需要 7 分钟,这是因为它 运行s 在我的 CPU.
上有什么方法可以在我的 GPU 上强制分词器 运行。
标记化是字符串操作。它基本上是一个带有一堆 if-else 条件和字典查找的字符串的 for 循环。使用 GPU 无法加快速度。基本上,GPU 唯一能做的就是张量乘法和加法。只有可以使用张量运算制定的问题才能使用 GPU 进行加速。
Huggingface Transformers 中的默认分词器在 Python 中实现。有一个用 Rust 实现的更快的版本。您可以从独立包 Huggingface Tokenziers or in newer versions of Transformers, they should be available under DistilBertTokenizerFast
.