超出 IOPub 数据速率。在 Google Colab 中

IOPub data rate exceeded. in Google Colab

我试图在 google colab 上打印长度为 8483448 字节的数据集中的单词,但出现此错误:

words =list(model.wv.vocab)
print('this vocabulary for corpus')
print(words)

错误:

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)

感谢您帮我解决这个错误。

鉴于此错误,您似乎达到了 Google Colab 特定的输出大小限制。

首先尝试打印 len(model.wv.vocab) 以了解您要显示的输出有多大。在笔记本单元格中显示可能不实用!

如果您只需要浏览一些大词汇,打印一个小子集,例如 print(words[0:10])

另请注意:在最新的 Gensim 版本 (>=4.0.0) 中,.vocab 字典消失了。但是,列表 model.wv.index_to_key 中提供了所有已知标记(单词)的列表,通常按频率降序排列。 (因此,在 gensim-4.0.0 及更高版本中,您可以使用 print(model.wv.index_to_key[0:100]) 查看 100 个最常用的标记。)