从 Keras 的路透社数据集中重建新闻文本
Reconstruct news texts from Keras' reuters dataset
我似乎无法理解 Keras 的路透社数据集提供的数据集。
集是这样加载的:
(x_train, y_train), (x_test, y_test) = reuters.load_data()
据我了解,"x" 数组是新闻报道中单词索引的序列(列表)数组,"y" 数组是这些序列主题的数组。
但是当我尝试使用提供的字典将其中一个序列的单词索引翻译成实际单词时:
wordDict = {y:x for x,y in reuters.get_word_index().items()}
for index in x_train[0]:
print (wordDict.get(index))
这个顺序似乎没有意义。如何将序列恢复为原始新闻?
编辑:
找到了一个类似的线程 here。似乎字典中的索引与数据集中的单词索引不匹配存在问题。但是重新下载数据并不能解决我的问题。
load_data参数的默认值"index_from"让实际单词的索引>3。
可以使用 wordDict.get(index - 3)
.
重建文本
我似乎无法理解 Keras 的路透社数据集提供的数据集。
集是这样加载的:
(x_train, y_train), (x_test, y_test) = reuters.load_data()
据我了解,"x" 数组是新闻报道中单词索引的序列(列表)数组,"y" 数组是这些序列主题的数组。
但是当我尝试使用提供的字典将其中一个序列的单词索引翻译成实际单词时:
wordDict = {y:x for x,y in reuters.get_word_index().items()}
for index in x_train[0]:
print (wordDict.get(index))
这个顺序似乎没有意义。如何将序列恢复为原始新闻?
编辑: 找到了一个类似的线程 here。似乎字典中的索引与数据集中的单词索引不匹配存在问题。但是重新下载数据并不能解决我的问题。
load_data参数的默认值"index_from"让实际单词的索引>3。
可以使用 wordDict.get(index - 3)
.