LaBSE 预处理器输出的文本表示?
Textual representation of LaBSE preprocessor output?
我使用以下模型对来自多种语言的句子进行分词:
https://tfhub.dev/google/universal-sentence-encoder-cmlm/multilingual-preprocess/2
其中,对于以下输入:
"I wish you a pleasant flight and a good meal aboard this plane."
输出以下标记:
[101, 146, 34450, 15100, 170, 147508, 48088, 14999, 170, 17072, 66369, 351617, 15272, 69746, 119, 102]
从这个输出中,我想恢复标记的文本表示。像 :
[START, I, wish, ..., plane, .]
到目前为止,我一直在寻找令牌<=>文本映射,但发现的资源主要是关于 BERT 的,它有几个单语言模型,而我想保持与语言无关。
关于如何做到这一点的任何线索?
在此先感谢您的帮助,
google/universal-sentence-encoder-cmlm/multilingual-preprocess/2
模型的默认缓存位置是 /tmp/tfhub_modules/8e75887695ac632ead11c556d4a6d45194718ffb
(more on caching)。在assets
目录下,你会找到cased_vocab.txt
,这是用到的词汇:
!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 102p
> [CLS]
!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 147p
> I
!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 34451p
> wish
...
请注意,sed
假定索引从 1 开始,而预处理器的输出是从 0 开始的。
我使用以下模型对来自多种语言的句子进行分词: https://tfhub.dev/google/universal-sentence-encoder-cmlm/multilingual-preprocess/2
其中,对于以下输入:
"I wish you a pleasant flight and a good meal aboard this plane."
输出以下标记:
[101, 146, 34450, 15100, 170, 147508, 48088, 14999, 170, 17072, 66369, 351617, 15272, 69746, 119, 102]
从这个输出中,我想恢复标记的文本表示。像 :
[START, I, wish, ..., plane, .]
到目前为止,我一直在寻找令牌<=>文本映射,但发现的资源主要是关于 BERT 的,它有几个单语言模型,而我想保持与语言无关。
关于如何做到这一点的任何线索?
在此先感谢您的帮助,
google/universal-sentence-encoder-cmlm/multilingual-preprocess/2
模型的默认缓存位置是 /tmp/tfhub_modules/8e75887695ac632ead11c556d4a6d45194718ffb
(more on caching)。在assets
目录下,你会找到cased_vocab.txt
,这是用到的词汇:
!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 102p
> [CLS]
!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 147p
> I
!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 34451p
> wish
...
请注意,sed
假定索引从 1 开始,而预处理器的输出是从 0 开始的。