猜测收据的类别
Guessing the categories for receipts
我们有大量收据(超过 20k),想要对这些收据进行分类。一张收据可以属于一个或多个类别。我们目前有 500 多个类别。
即
- 如果收据是关于网络支付的。然后我们的类别是"InternetService",我们在收据中有ISP信息和付款信息。
- 如果收据是关于午餐外出的,那么我们的类别是 "FoodAndBeverages",我们有餐厅名称、食品信息和金额。
- 如果收据是关于出租车的付款,那么我们的类别是 "Transportation",我们有出租车公司信息、车辆、driver、位置信息和金额。
因此,除了我在上面示例中提到的类别外,我们还有税收类别,大部分收据都是其中的一部分。所以每张收据可以有一个或多个类别。
因此,为了猜测这个类别,我们采用了 multi-label 分类解决方案。目前,我们将获取收据的全部文本,并使用我们拥有的收据文本和类别来训练我们的模型。
想要验证我们是否按照正确的方法解决了这个问题。期待这里有高手的思路。
我们有大量收据(超过 20k),想要对这些收据进行分类。一张收据可以属于一个或多个类别。我们目前有 500 多个类别。
即
- 如果收据是关于网络支付的。然后我们的类别是"InternetService",我们在收据中有ISP信息和付款信息。
- 如果收据是关于午餐外出的,那么我们的类别是 "FoodAndBeverages",我们有餐厅名称、食品信息和金额。
- 如果收据是关于出租车的付款,那么我们的类别是 "Transportation",我们有出租车公司信息、车辆、driver、位置信息和金额。
因此,除了我在上面示例中提到的类别外,我们还有税收类别,大部分收据都是其中的一部分。所以每张收据可以有一个或多个类别。
因此,为了猜测这个类别,我们采用了 multi-label 分类解决方案。目前,我们将获取收据的全部文本,并使用我们拥有的收据文本和类别来训练我们的模型。
想要验证我们是否按照正确的方法解决了这个问题。期待这里有高手的思路。