load_files 在 scikit-learn 中不加载目录中的所有文件
load_files in scikit-learn not loading all files in directory
我有一个名为 'emails' 的文件夹,其中有两个子文件夹以对应于它们所拥有文件的分类(垃圾邮件或非垃圾邮件,都是 .txt 文件)的标签命名。两个子文件夹中有 3000 个文件。使用 load_files:
data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)
这将打印“5”,然后打印“3000”。找了3000个分类标签,怎么数据长度只有5?
您的数据存储在 data.data
中,目标存储在 data.target
中。
请尝试 print(len(data.data))
。
load_files()
只是 returns 一个 sklearn.datasets.base.Bunch
,这是一个简单的数据包装器。
因此,data
的格式为:
{
'DESCR': None,
'data': [],
'filenames': array(),
'target': array(),
'target_names': []
}
这就是为什么 len(data)
returns 5.
希望对您有所帮助!
我有一个名为 'emails' 的文件夹,其中有两个子文件夹以对应于它们所拥有文件的分类(垃圾邮件或非垃圾邮件,都是 .txt 文件)的标签命名。两个子文件夹中有 3000 个文件。使用 load_files:
data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)
这将打印“5”,然后打印“3000”。找了3000个分类标签,怎么数据长度只有5?
您的数据存储在 data.data
中,目标存储在 data.target
中。
请尝试 print(len(data.data))
。
load_files()
只是 returns 一个 sklearn.datasets.base.Bunch
,这是一个简单的数据包装器。
因此,data
的格式为:
{
'DESCR': None,
'data': [],
'filenames': array(),
'target': array(),
'target_names': []
}
这就是为什么 len(data)
returns 5.
希望对您有所帮助!