猜测收据的类别

Guessing the categories for receipts

我们有大量收据(超过 20k),想要对这些收据进行分类。一张收据可以属于一个或多个类别。我们目前有 500 多个类别。

因此,除了我在上面示例中提到的类别外,我们还有税收类别,大部分收据都是其中的一部分。所以每张收据可以有一个或多个类别。

因此,为了猜测这个类别,我们采用了 multi-label 分类解决方案。目前,我们将获取收据的全部文本,并使用我们拥有的收据文本和类别来训练我们的模型。

想要验证我们是否按照正确的方法解决了这个问题。期待这里有高手的思路。

根据您的解释,根据您的示例,您正在解决的问题是多class class化而不是多标签class化。

如果每个收据只映射到许多可能类别中的一个类别,那么它是多class class化。

如果每张收据可以映射到许多可能类别中的多个类别,那么它就是多标签class化。

如需更多解释并了解 sklearn 中解决这些问题的可用算法,请查看 here

有关处理文本数据的更多基本步骤,read here

编辑:

您可以使用单独的模型来预测每张收据的税种。由于构建多个 multi-class 模型比单个多标签模型相对容易。