【发布时间】:2017-06-09 19:36:39
【问题描述】:
我有很多电子邮件要从中提取数据。电子邮件包含数据,但格式不同。
以下示例包含有关装运请求的数据:
Account: SugarHigh Inc
Qty: 1,000 Tons Sugar
Date: 9 - 15 July
From: NY
To: IL
我想把上面的内容提取成如下格式:
Account Quantity Product FromDate ToDate From To
------- -------- ------- -------- ------ ---- --
SugarHigh Inc 1000 Sugar 9 July 15 July NY IL
同一个请求可以以不同的格式到达。例如:
Acc: SugarHigh Inc
Qty/Date: 1,000 Tons Sugar/9 - 15 July
From/To: NY/IL
有些请求甚至可以有更多或更少的字段或以不同的方式描述事物。
是否可以使用机器学习来帮助完全/部分提取这些数据?如果是这样,这种类型的问题存在什么类型的算法/模型?我假设我可能还需要使用某种类型的字典来识别产品或位置等已知单词。
【问题讨论】:
-
@LukaszTacewski 提供了很好的回应。机器学习有许多适应领域。这取决于您希望追求的网络类型,您必须对此做出决定。
标签: machine-learning