【问题标题】:I would like to process semi-structured text. Can machine learning be used?我想处理半结构化文本。可以使用机器学习吗?
【发布时间】:2017-06-09 19:36:39
【问题描述】:

我有很多电子邮件要从中提取数据。电子邮件包含数据,但格式不同。

以下示例包含有关装运请求的数据:

Account: SugarHigh Inc
Qty: 1,000 Tons Sugar
Date: 9 - 15 July
From: NY
To: IL

我想把上面的内容提取成如下格式:

Account        Quantity     Product     FromDate     ToDate     From     To
-------        --------     -------     --------     ------     ----     --
SugarHigh Inc  1000         Sugar       9 July       15 July    NY       IL

同一个请求可以以不同的格式到达。例如:

Acc: SugarHigh Inc
Qty/Date: 1,000 Tons Sugar/9 - 15 July
From/To: NY/IL

有些请求甚至可以有更多或更少的字段或以不同的方式描述事物。

是否可以使用机器学习来帮助完全/部分提取这些数据?如果是这样,这种类型的问题存在什么类型的算法/模型?我假设我可能还需要使用某种类型的字典来识别产品或位置等已知单词。

【问题讨论】:

  • @LukaszTacewski 提供了很好的回应。机器学习有许​​多适应领域。这取决于您希望追求的网络类型,您必须对此做出决定。

标签: machine-learning


【解决方案1】:

是的,您可以从阅读this post on text mining 开始。话虽如此,我建议只使用一些(模糊)字符串搜索。这些数据的可变性是有限的。每次遇到新模式时,只需将其添加到算法中即可。应该会为您带来更好的结果并花费更少的时间。

【讨论】:

    猜你喜欢
    • 2012-07-07
    • 2015-08-28
    • 1970-01-01
    • 2017-04-23
    • 2017-07-12
    • 1970-01-01
    • 2018-12-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多