如何在keras中获取句子中的标记数
How to get number of tokens in the sentence in keras
我有一个句子和一个预训练的分词器。我想计算句子中的标记数,没有特殊标记。我使用来自 HuggingFace 的 code。
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = TFBertModel.from_pretrained("bert-base-cased")
text = "I want to know the number of tokens in this sentence!!!"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
我该怎么做?
您可以使用 encode
方法并将 add_special_tokens
设置为 False
或者基本上使用 tokenize
方法。
encoded_input = tokenizer(text, return_tensors='tf', add_special_tokens=False)
encoded_input.input_ids.shape[1]
和
tokenized_input = tokenizer.tokenize(text)
len(tokenized_input)
我有一个句子和一个预训练的分词器。我想计算句子中的标记数,没有特殊标记。我使用来自 HuggingFace 的 code。
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = TFBertModel.from_pretrained("bert-base-cased")
text = "I want to know the number of tokens in this sentence!!!"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
我该怎么做?
您可以使用 encode
方法并将 add_special_tokens
设置为 False
或者基本上使用 tokenize
方法。
encoded_input = tokenizer(text, return_tensors='tf', add_special_tokens=False)
encoded_input.input_ids.shape[1]
和
tokenized_input = tokenizer.tokenize(text)
len(tokenized_input)