如何在keras中获取句子中的标记数

Question

我有一个句子和一个预训练的分词器。我想计算句子中的标记数，没有特殊标记。我使用来自 HuggingFace 的 code。

from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = TFBertModel.from_pretrained("bert-base-cased")
text = "I want to know the number of tokens in this sentence!!!"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

我该怎么做？

Answer 1

您可以使用 encode 方法并将 add_special_tokens 设置为 False 或者基本上使用 tokenize 方法。

encoded_input = tokenizer(text, return_tensors='tf', add_special_tokens=False)
encoded_input.input_ids.shape[1]

和

tokenized_input = tokenizer.tokenize(text)
len(tokenized_input)

如何在keras中获取句子中的标记数

How to get number of tokens in the sentence in keras

python

nlp

token

bert-language-model

huggingface-transformers