load_files 在 scikit-learn 中不加载目录中的所有文件

Question

我有一个名为 'emails' 的文件夹，其中有两个子文件夹以对应于它们所拥有文件的分类（垃圾邮件或非垃圾邮件，都是 .txt 文件）的标签命名。两个子文件夹中有 3000 个文件。使用 load_files:

data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)

这将打印“5”，然后打印“3000”。找了3000个分类标签，怎么数据长度只有5？

Answer 1

您的数据存储在 data.data 中，目标存储在 data.target 中。请尝试 print(len(data.data))。

load_files() 只是 returns 一个 sklearn.datasets.base.Bunch，这是一个简单的数据包装器。因此，data 的格式为：

{
'DESCR': None,
 'data': [],
 'filenames': array(),
 'target': array(),
 'target_names': []
}

这就是为什么 len(data) returns 5.

希望对您有所帮助！

load_files in scikit-learn not loading all files in directory