【发布时间】:2015-11-26 17:11:20
【问题描述】:
我正在尝试进行数据规范化并填充正确的邮政编码、城市和州。 数据包含邮政编码、城市、州和地址字段信息以及许多错误信息,例如类型错误等。 以下方法,我试过了:
从正确的邮政编码、城市和州信息中查找并进行归一化,仅涵盖 40-50% 的正确归一化
标记地址并应用大量条件语句以获取正确的邮政编码、城市和州以及查找信息。地址字段包含大量丰富的信息,可用于创建查找和数据规范化。这种方法仅涵盖 50-60% 的正确归一化。
数据包含大量历史信息,新数据不断涌现。数据归一化是一个迭代过程。有没有更好的方法来使用机器学习技术进行数据归一化,即数据从历史数据中学习并进行归一化?
【问题讨论】:
标签: machine-learning normalization