是仅文本的多标签分类
is multi-label clasification for text only
我正在研究一个数字数据集,显然它是一个多变量输出回归。我想知道您是否可以在数字数据集中进行多标签分类,或者它仅适用于基于文本的分类。
例如:Whosebug 将每个 text/code 分类为多个标签,例如 python,flask, python2.7
... 但是可以用数字来完成类似的事情。抱歉,我知道这是一个菜鸟问题,但我想知道答案。提前致谢。
当然可以用数字来完成。毕竟,文本本身被转换为数字以进行 class 化。但是你不应该为此使用回归。这显然是 class化的情况。
一个常规的 classifier(例如神经网络)通常有多个输出,每个 class 一个。每个输出 returns 输入向量属于特定 class.
的概率
在标准的class化中,你以最大的概率将它分配给class。在你的情况下,只需将它分配给 p > 0.5
的所有 classes(假设输出在 [0, 1]
.
关于你的问题是多重回归还是多重class化问题,你不能仅仅通过查看输入就知道。您根据要查找的内容来决定。如果您尝试在连续范围内查找数值(例如,预测给定产品的价格和销售数量),请选择回归。如果您有许多输入具有或不具有的属性,请选择 classification。
我正在研究一个数字数据集,显然它是一个多变量输出回归。我想知道您是否可以在数字数据集中进行多标签分类,或者它仅适用于基于文本的分类。
例如:Whosebug 将每个 text/code 分类为多个标签,例如 python,flask, python2.7
... 但是可以用数字来完成类似的事情。抱歉,我知道这是一个菜鸟问题,但我想知道答案。提前致谢。
当然可以用数字来完成。毕竟,文本本身被转换为数字以进行 class 化。但是你不应该为此使用回归。这显然是 class化的情况。
一个常规的 classifier(例如神经网络)通常有多个输出,每个 class 一个。每个输出 returns 输入向量属于特定 class.
的概率在标准的class化中,你以最大的概率将它分配给class。在你的情况下,只需将它分配给 p > 0.5
的所有 classes(假设输出在 [0, 1]
.
关于你的问题是多重回归还是多重class化问题,你不能仅仅通过查看输入就知道。您根据要查找的内容来决定。如果您尝试在连续范围内查找数值(例如,预测给定产品的价格和销售数量),请选择回归。如果您有许多输入具有或不具有的属性,请选择 classification。