'utf-8' 编解码器无法解码位置 0 中的字节 0x93:起始字节无效
'utf-8' codec can't decode byte 0x93 in position 0: invalid start byte
我想使用 Word2Vec,我已经下载了一个 Word2Vec 的印度尼西亚语语料库,但是当我调用它时,它给我一个错误,这就是我的尝试:
Model = gensim.models.KeyedVectors.load_word2vec_format('/content/drive/MyDrive/Feature Extraction Lexicon Based/Word2Vec/idwiki_word2vec_100_new_lower.model.wv.vectors.npy', binary=True,)
它给我一个错误,像这样:
---------------------------------------------------------------------------
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-73-219e152ee7d9> in <module>()
----> 1 Model = gensim.models.KeyedVectors.load_word2vec_format('/content/drive/MyDrive/Feature Extraction Lexicon Based/Word2Vec/idwiki_word2vec_100_new_lower.model.wv.vectors.npy', binary=True,)
2 frames
/usr/local/lib/python3.7/dist-packages/gensim/utils.py in any2unicode(text, encoding, errors)
353 if isinstance(text, unicode):
354 return text
--> 355 return unicode(text, encoding, errors=errors)
356
357
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x93 in position 0: invalid start byte
名为 idwiki_word2vec_100_new_lower.model.wv.vectors.npy
的文件不太可能是 load_word2vec_format()
所需的格式。
.npy
表明它是原始 numpy
数组,这不是预期的格式。
此外,.wv.vectors.
部分表明这可能是完整 multi-file Gensim .save()
完整 Word2Vec
模型的一部分。这不仅仅是向量,还需要所有相关文件 re-load.
您应该 double-check 向量的来源及其关于其格式和正确加载方式的声明。 (如果您仍然遇到问题并需要更多指导,您应该指定有关文件来源的更多详细信息 – 例如 link 指向获取文件的网站 – 以支持其他建议。)
我想使用 Word2Vec,我已经下载了一个 Word2Vec 的印度尼西亚语语料库,但是当我调用它时,它给我一个错误,这就是我的尝试:
Model = gensim.models.KeyedVectors.load_word2vec_format('/content/drive/MyDrive/Feature Extraction Lexicon Based/Word2Vec/idwiki_word2vec_100_new_lower.model.wv.vectors.npy', binary=True,)
它给我一个错误,像这样:
---------------------------------------------------------------------------
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-73-219e152ee7d9> in <module>()
----> 1 Model = gensim.models.KeyedVectors.load_word2vec_format('/content/drive/MyDrive/Feature Extraction Lexicon Based/Word2Vec/idwiki_word2vec_100_new_lower.model.wv.vectors.npy', binary=True,)
2 frames
/usr/local/lib/python3.7/dist-packages/gensim/utils.py in any2unicode(text, encoding, errors)
353 if isinstance(text, unicode):
354 return text
--> 355 return unicode(text, encoding, errors=errors)
356
357
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x93 in position 0: invalid start byte
名为 idwiki_word2vec_100_new_lower.model.wv.vectors.npy
的文件不太可能是 load_word2vec_format()
所需的格式。
.npy
表明它是原始 numpy
数组,这不是预期的格式。
此外,.wv.vectors.
部分表明这可能是完整 multi-file Gensim .save()
完整 Word2Vec
模型的一部分。这不仅仅是向量,还需要所有相关文件 re-load.
您应该 double-check 向量的来源及其关于其格式和正确加载方式的声明。 (如果您仍然遇到问题并需要更多指导,您应该指定有关文件来源的更多详细信息 – 例如 link 指向获取文件的网站 – 以支持其他建议。)