使用传统和机器学习方法进行数据规范化？答案

【问题标题】：Data normalization using traditional and machine learning approach?使用传统和机器学习方法进行数据规范化？
【发布时间】：2015-11-26 17:11:20
【问题描述】：

我正在尝试进行数据规范化并填充正确的邮政编码、城市和州。数据包含邮政编码、城市、州和地址字段信息以及许多错误信息，例如类型错误等。以下方法，我试过了：

从正确的邮政编码、城市和州信息中查找并进行归一化，仅涵盖 40-50% 的正确归一化
标记地址并应用大量条件语句以获取正确的邮政编码、城市和州以及查找信息。地址字段包含大量丰富的信息，可用于创建查找和数据规范化。这种方法仅涵盖 50-60% 的正确归一化。

数据包含大量历史信息，新数据不断涌现。数据归一化是一个迭代过程。有没有更好的方法来使用机器学习技术进行数据归一化，即数据从历史数据中学习并进行归一化？

【问题讨论】：

【解决方案1】：

这是一个很笼统的问题，所以我给出一个笼统的答案。

如果没有其他方法可以提供帮助，则应使用机器学习。最简单的解决方案是：如果你有足够的数据（你可以牺牲其中一些），数据仍然具有相同的质量，尝试基于一些正则表达式进行过滤 - 它既快速又简单

使用机器学习，您将花费一些时间进行训练，并且无法保证准确性。但当然，在某些情况下 ML 可以提供很多帮助

【讨论】：