【问题标题】:Data normalization using traditional and machine learning approach?使用传统和机器学习方法进行数据规范化?
【发布时间】:2015-11-26 17:11:20
【问题描述】:

我正在尝试进行数据规范化并填充正确的邮政编码、城市和州。 数据包含邮政编码、城市、州和地址字段信息以及许多错误信息,例如类型错误等。 以下方法,我试过了:

  1. 从正确的邮政编码、城市和州信息中查找并进行归一化,仅涵盖 40-50% 的正确归一化

  2. 标记地址并应用大量条件语句以获取正确的邮政编码、城市和州以及查找信息。地址字段包含大量丰富的信息,可用于创建查找和数据规范化。这种方法仅涵盖 50-60% 的正确归一化。

数据包含大量历史信息,新数据不断涌现。数据归一化是一个迭代过程。有没有更好的方法来使用机器学习技术进行数据归一化,即数据从历史数据中学习并进行归一化?

【问题讨论】:

    标签: machine-learning normalization


    【解决方案1】:

    这是一个很笼统的问题,所以我给出一个笼统的答案。

    如果没有其他方法可以提供帮助,则应使用机器学习。 最简单的解决方案是:如果你有足够的数据(你可以牺牲其中一些),数据仍然具有相同的质量,尝试基于一些正则表达式进行过滤 - 它既快速又简单

    使用机器学习,您将花费一些时间进行训练,并且无法保证准确性。但当然,在某些情况下 ML 可以提供很多帮助

    【讨论】:

      猜你喜欢
      • 2019-01-01
      • 2019-03-01
      • 2018-08-29
      • 2017-04-05
      • 2013-06-07
      • 2011-11-22
      • 2019-11-08
      • 2014-07-04
      • 2021-03-27
      相关资源
      最近更新 更多