Weka,arff 文件上的文本分类
Weka ,Text Classification on an arff file
。这是一个基本问题。我正在尝试将文本文件分为 20 种不同的 类。
因此我有一个项目结构,其中包含一个名为 train,test 的文件夹。
在 train 文件夹中,我有 20 个不同的文件夹,每个文件夹都有许多与特定相关的文件 class.ex:weather, atheism...etc
我现在已经为整个火车创建了一个 train.arff 文件 folder.When 数据是可视化的,我只能看到两个属性。
在下面提供了 link:
我的疑问是如何查看这些文件夹下的各种文件并删除停用词、标点符号,stemmin.How 我是否可以去 preprocessing.If 一些 link 好的资源是可用请建议并提供必要的links
当我第一次接触使用 Weka 进行文本分类时,我发现下面的视频非常有用。你可能想看一看。
- Weka Tutorial 31: Document Classification 1 (Application)
- Weka Tutorial 32: Document classification 2 (Application)
- WEKA Text Classification for First Time & Beginner Users
您可能想使用 StringToWordVector 过滤器来查看每个单词作为属性的效果,这确实在第一个和最后一个视频中有详细描述。在过滤器设置中,您可以提供停用词列表并在每个 运行 中选择是否使用它。与词干相同,您也可以更改它。 documentation 和视频会让您轻松理解它。
。这是一个基本问题。我正在尝试将文本文件分为 20 种不同的 类。
因此我有一个项目结构,其中包含一个名为 train,test 的文件夹。 在 train 文件夹中,我有 20 个不同的文件夹,每个文件夹都有许多与特定相关的文件 class.ex:weather, atheism...etc
我现在已经为整个火车创建了一个 train.arff 文件 folder.When 数据是可视化的,我只能看到两个属性。 在下面提供了 link:
我的疑问是如何查看这些文件夹下的各种文件并删除停用词、标点符号,stemmin.How 我是否可以去 preprocessing.If 一些 link 好的资源是可用请建议并提供必要的links
当我第一次接触使用 Weka 进行文本分类时,我发现下面的视频非常有用。你可能想看一看。
- Weka Tutorial 31: Document Classification 1 (Application)
- Weka Tutorial 32: Document classification 2 (Application)
- WEKA Text Classification for First Time & Beginner Users
您可能想使用 StringToWordVector 过滤器来查看每个单词作为属性的效果,这确实在第一个和最后一个视频中有详细描述。在过滤器设置中,您可以提供停用词列表并在每个 运行 中选择是否使用它。与词干相同,您也可以更改它。 documentation 和视频会让您轻松理解它。