Text classification/Machine 学习:我还需要一个 'Default' 类别吗?
Text classification/Machine learning: do I also need a 'Default' categorie?
对于我的作业,我需要制作一个机器学习程序来执行以下操作:
作为输入,程序获取项目的建筑计划(以 PDF 文本形式编写),主要是桥梁和水闸。机器学习程序将该 PDF 中的每个句子作为样本(该句子中的单词是特征),并且需要将每个 sample/sentence 分类为以下类别之一:硬件相关和软件相关。 (我将朴素贝叶斯算法与 TF-DIF 结合使用。)
但是,如你所想,还有很多无关紧要的句子,与硬件无关,也与软件无关。我是否需要创建一个单独的类别 'Default/Irrelevant',以便我总共有三个类别?还是只保留这两个类别,并根据它们的概率对它们进行分类更好?例如;一句话在0.6分被归类为硬件,那我就无视了。但如果结果是0.8或更高,那么我将其归类为硬件。
每种方法的效果取决于您将使用多少训练数据。目前我正在从事一个大型项目,本质上,它对文本执行类似的任务,一个句子一个句子,尽管我使用的是 7 个类别。我用了 7 个标签,所以没有 'irrelevant' 个桶'。我在展示调查结果时使用阈值保持,所以任何高于 0.75 的确定性评级,这都可以正常工作。使用 'irrelevant' 桶的问题是你必须训练它什么是 'irrelevant',这可能是一个巨大的不同数据集。所以选择你的概率选项。
你需要在你的训练集中使用不相关的句子,我会用一个例子来解释原因:
如果您有三个 class class化问题,您可以获得以下输出:
不相关 95%
硬件 4%
软件 1%
成为硬件的可能性是成为软件的可能性的 4 倍。但是你显然会选择Irrelevant
如果您使用两个 class 数据集,您将获得以下输出:
硬件 80%
软件 20%
成为硬件的可能性再次是成为软件的可能性的 4 倍,但两个百分比之和必须为 100%,因为 class 作者认为这两种可能性都是整个宇宙。
您有两个不同的选择:
1 - A 3 class class化问题(硬件、软件、不相关)
2 - 两个 classifiers with 2 class classification problem:
分类器 1 -> 正 class 硬件,负 class:软件 + 不相关
分类器 2 -> 正 class 软件,负类:硬件 + 无关
对于我的作业,我需要制作一个机器学习程序来执行以下操作:
作为输入,程序获取项目的建筑计划(以 PDF 文本形式编写),主要是桥梁和水闸。机器学习程序将该 PDF 中的每个句子作为样本(该句子中的单词是特征),并且需要将每个 sample/sentence 分类为以下类别之一:硬件相关和软件相关。 (我将朴素贝叶斯算法与 TF-DIF 结合使用。)
但是,如你所想,还有很多无关紧要的句子,与硬件无关,也与软件无关。我是否需要创建一个单独的类别 'Default/Irrelevant',以便我总共有三个类别?还是只保留这两个类别,并根据它们的概率对它们进行分类更好?例如;一句话在0.6分被归类为硬件,那我就无视了。但如果结果是0.8或更高,那么我将其归类为硬件。
每种方法的效果取决于您将使用多少训练数据。目前我正在从事一个大型项目,本质上,它对文本执行类似的任务,一个句子一个句子,尽管我使用的是 7 个类别。我用了 7 个标签,所以没有 'irrelevant' 个桶'。我在展示调查结果时使用阈值保持,所以任何高于 0.75 的确定性评级,这都可以正常工作。使用 'irrelevant' 桶的问题是你必须训练它什么是 'irrelevant',这可能是一个巨大的不同数据集。所以选择你的概率选项。
你需要在你的训练集中使用不相关的句子,我会用一个例子来解释原因:
如果您有三个 class class化问题,您可以获得以下输出: 不相关 95% 硬件 4% 软件 1%
成为硬件的可能性是成为软件的可能性的 4 倍。但是你显然会选择Irrelevant
如果您使用两个 class 数据集,您将获得以下输出: 硬件 80% 软件 20%
成为硬件的可能性再次是成为软件的可能性的 4 倍,但两个百分比之和必须为 100%,因为 class 作者认为这两种可能性都是整个宇宙。
您有两个不同的选择:
1 - A 3 class class化问题(硬件、软件、不相关)
2 - 两个 classifiers with 2 class classification problem:
分类器 1 -> 正 class 硬件,负 class:软件 + 不相关
分类器 2 -> 正 class 软件,负类:硬件 + 无关