【发布时间】:2019-05-22 10:09:59
【问题描述】:
我们有大量收据(超过 2 万张)并希望对这些收据进行分类。一张收据可以属于一个或多个类别。我们目前有超过 500 个类别。
即
- 如果收据是关于互联网付款的。然后我们的类别是“InternetService”,收据中有 ISP 信息和付款信息。
- 如果收据是关于午餐郊游的,那么我们的类别是“FoodAndBeverages”,我们有餐厅名称、食物信息和金额。
- 如果收据是关于出租车付款的,那么我们的类别是“交通”,我们有出租车公司信息、车辆、司机、位置信息和金额。
因此,除了我在上述示例中提到的类别之外,我们还有税收类别,并且大部分收据都是其中的一部分。所以每张收据可以有一个或多个类别。
所以为了猜测这个类别,我们采用了多标签分类解决方案。目前,我们将获取收据的整个文本,并使用我们拥有的收据文本和类别来训练我们的模型。
想要验证我们是否采用了正确的方法来解决此问题。期待这里有专家的想法。
【问题讨论】:
-
为什么你认为这是一个“多标签分类”的问题?您是否同时拥有多个类别的收据,例如“InternetService”和“FoodAndBeverages”?我知道你在最初的描述中写了“是”,但你的例子都不是那种。收据是图片形式还是文字形式?您没有详细说明您的方法
-
描述的时候好像漏掉了。我会更新这个问题。是的,收据是图片形式的,我们可以使用 google vision api 从中获取文本。
标签: tensorflow machine-learning neural-network lstm multilabel-classification