【问题标题】:Guessing the categories for receipts猜测收据的类别
【发布时间】:2019-05-22 10:09:59
【问题描述】:

我们有大量收据(超过 2 万张)并希望对这些收据进行分类。一张收据可以属于一个或多个类别。我们目前有超过 500 个类别。

  • 如果收据是关于互联网付款的。然后我们的类别是“InternetService”,收据中有 ISP 信息和付款信息。
  • 如果收据是关于午餐郊游的,那么我们的类别是“FoodAndBeverages”,我们有餐厅名称、食物信息和金额。
  • 如果收据是关于出租车付款的,那么我们的类别是“交通”,我们有出租车公司信息、车辆、司机、位置信息和金额。

因此,除了我在上述示例中提到的类别之外,我们还有税收类别,并且大部分收据都是其中的一部分。所以每张收据可以有一个或多个类别。

所以为了猜测这个类别,我们采用了多标签分类解决方案。目前,我们将获取收据的整个文本,并使用我们拥有的收据文本和类别来训练我们的模型。

想要验证我们是否采用了正确的方法来解决此问题。期待这里有专家的想法。

【问题讨论】:

  • 为什么你认为这是一个“多标签分类”的问题?您是否同时拥有多个类别的收据,例如“InternetService”和“FoodAndBeverages”?我知道你在最初的描述中写了“是”,但你的例子都不是那种。收据是图片形式还是文字形式?您没有详细说明您的方法
  • 描述的时候好像漏掉了。我会更新这个问题。是的,收据是图片形式的,我们可以使用 google vision api 从中获取文本。

标签: tensorflow machine-learning neural-network lstm multilabel-classification


【解决方案1】:

根据您的解释,您正在解决的问题是多类分类,而不是基于您的示例的多标签分类。

如果每个收据只映射到许多可能类别中的一个类别,则它是多类分类。

如果每个收据可以映射到多个可能类别中的多个类别,那么它就是多标签分类。

如需更多解释并了解 sklearn 中解决这些问题的可用算法,请查看here

有关处理文本数据的更多基本步骤,read here

编辑:

您可以有一个单独的模型来预测每张收据的税种。由于构建多个多类模型比单个多标签模型相对容易。

【讨论】:

  • 描述的时候好像漏掉了。我会更新问题。
猜你喜欢
  • 2011-10-13
  • 2020-08-24
  • 2015-12-19
  • 1970-01-01
  • 1970-01-01
  • 2013-03-22
  • 1970-01-01
  • 2011-08-17
  • 2016-06-19
相关资源
最近更新 更多