导入自己的数据进行文档分类
importing own data for document classification
我有多个文件夹,每个文件夹都有多个文本文件。该文件夹以文本文件的 class 命名。我如何将这些文件夹和文件导入 nltk/scikit learn 中的文档 classification。我计划使用 Bi normal separartion 进行特征选择,使用 SVM 进行 classification。任何帮助将不胜感激
看看load_files which serves this exact purpose. Here you can also find some examples。
此代码有效
from sklearn.datasets import load_files
dt=load_files('C:/test4',load_content=True)
print dt.target_names
X, y = dt.data, dt.target
我有多个文件夹,每个文件夹都有多个文本文件。该文件夹以文本文件的 class 命名。我如何将这些文件夹和文件导入 nltk/scikit learn 中的文档 classification。我计划使用 Bi normal separartion 进行特征选择,使用 SVM 进行 classification。任何帮助将不胜感激
看看load_files which serves this exact purpose. Here you can also find some examples。
此代码有效
from sklearn.datasets import load_files
dt=load_files('C:/test4',load_content=True)
print dt.target_names
X, y = dt.data, dt.target