猜测收据的类别答案

【问题标题】：Guessing the categories for receipts猜测收据的类别
【发布时间】：2019-05-22 10:09:59
【问题描述】：

我们有大量收据（超过 2 万张）并希望对这些收据进行分类。一张收据可以属于一个或多个类别。我们目前有超过 500 个类别。

即

因此，除了我在上述示例中提到的类别之外，我们还有税收类别，并且大部分收据都是其中的一部分。所以每张收据可以有一个或多个类别。

所以为了猜测这个类别，我们采用了多标签分类解决方案。目前，我们将获取收据的整个文本，并使用我们拥有的收据文本和类别来训练我们的模型。

想要验证我们是否采用了正确的方法来解决此问题。期待这里有专家的想法。

【问题讨论】：

为什么你认为这是一个“多标签分类”的问题？您是否同时拥有多个类别的收据，例如“InternetService”和“FoodAndBeverages”？我知道你在最初的描述中写了“是”，但你的例子都不是那种。收据是图片形式还是文字形式？您没有详细说明您的方法
描述的时候好像漏掉了。我会更新这个问题。是的，收据是图片形式的，我们可以使用 google vision api 从中获取文本。

【解决方案1】：

根据您的解释，您正在解决的问题是多类分类，而不是基于您的示例的多标签分类。

如果每个收据只映射到许多可能类别中的一个类别，则它是多类分类。

如果每个收据可以映射到多个可能类别中的多个类别，那么它就是多标签分类。

如需更多解释并了解 sklearn 中解决这些问题的可用算法，请查看here。

有关处理文本数据的更多基本步骤，read here

编辑：

您可以有一个单独的模型来预测每张收据的税种。由于构建多个多类模型比单个多标签模型相对容易。

【讨论】：