导入自己的数据进行文档分类

Question

我有多个文件夹，每个文件夹都有多个文本文件。该文件夹以文本文件的 class 命名。我如何将这些文件夹和文件导入 nltk/scikit learn 中的文档 classification。我计划使用 Bi normal separartion 进行特征选择，使用 SVM 进行 classification。任何帮助将不胜感激

Answer 1

看看load_files which serves this exact purpose. Here you can also find some examples。

Answer 2

此代码有效

from sklearn.datasets import load_files

dt=load_files('C:/test4',load_content=True)
print dt.target_names
X, y = dt.data, dt.target

导入自己的数据进行文档分类

importing own data for document classification

machine-learning

nltk

scikit-learn