load_files 在 scikit-learn 中不加载目录中的所有文件

load_files in scikit-learn not loading all files in directory

我有一个名为 'emails' 的文件夹,其中有两个子文件夹以对应于它们所拥有文件的分类(垃圾邮件或非垃圾邮件,都是 .txt 文件)的标签命名。两个子文件夹中有 3000 个文件。使用 load_files:

data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)

这将打印“5”,然后打印“3000”。找了3000个分类标签,怎么数据长度只有5?

您的数据存储在 data.data 中,目标存储在 data.target 中。 请尝试 print(len(data.data))

load_files() 只是 returns 一个 sklearn.datasets.base.Bunch,这是一个简单的数据包装器。 因此,data 的格式为:

{
'DESCR': None,
 'data': [],
 'filenames': array(),
 'target': array(),
 'target_names': []
}

这就是为什么 len(data) returns 5.

希望对您有所帮助!