'utf-8' 编解码器无法解码位置 0 中的字节 0x93：起始字节无效

Question

我想使用 Word2Vec，我已经下载了一个 Word2Vec 的印度尼西亚语语料库，但是当我调用它时，它给我一个错误，这就是我的尝试:

Model = gensim.models.KeyedVectors.load_word2vec_format('/content/drive/MyDrive/Feature Extraction Lexicon Based/Word2Vec/idwiki_word2vec_100_new_lower.model.wv.vectors.npy', binary=True,)

它给我一个错误，像这样：

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-73-219e152ee7d9> in <module>()
----> 1 Model = gensim.models.KeyedVectors.load_word2vec_format('/content/drive/MyDrive/Feature Extraction Lexicon Based/Word2Vec/idwiki_word2vec_100_new_lower.model.wv.vectors.npy', binary=True,)

2 frames
/usr/local/lib/python3.7/dist-packages/gensim/utils.py in any2unicode(text, encoding, errors)
    353     if isinstance(text, unicode):
    354         return text
--> 355     return unicode(text, encoding, errors=errors)
    356 
    357 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x93 in position 0: invalid start byte

Answer 1

名为 idwiki_word2vec_100_new_lower.model.wv.vectors.npy 的文件不太可能是 load_word2vec_format() 所需的格式。

.npy 表明它是原始 numpy 数组，这不是预期的格式。

此外，.wv.vectors. 部分表明这可能是完整 multi-file Gensim .save() 完整 Word2Vec 模型的一部分。这不仅仅是向量，还需要所有相关文件 re-load.

您应该 double-check 向量的来源及其关于其格式和正确加载方式的声明。（如果您仍然遇到问题并需要更多指导，您应该指定有关文件来源的更多详细信息 – 例如 link 指向获取文件的网站 – 以支持其他建议。）