如何处理格式略有不同的数据？答案

【问题标题】：How to process data with slightly different formats?如何处理格式略有不同的数据？
【发布时间】：2015-09-15 10:17:05
【问题描述】：

我想自动处理 .xls 文件中的一些数据。数据格式不同，因为它来自不同的来源。

手动处理数据会输出这种格式的文件：

ID(一个数字)|NAME(一个字符串)|PRICE(一个浮点数)

正如我所说，信息通常以列的形式显示，但也可以是行，也可以有两个表，我只需要处理其中一个。

我考虑了三种方法：

使用策略模式。缺点：无论如何我都必须对每个案例进行编码。
使用 ETL 工具。缺点：我认为这超出了我的需要。
使用线性回归或神经网络或其他机器学习算法，其中示例将是一对（.xls 原始文件，.xls 处理文件）。缺点：我不知道目标函数的指标是什么（两个 excel 文件之间的相似性？）

感谢任何帮助或提示！

【问题讨论】：

【解决方案1】：

我不是使用线性回归或神经网络的专家。

这是困难的情况之一，因为数据格式各不相同。我在项目中观察到的是，我们每次都使用 ETL 工具（ssis）进行编码。使用线性回归或神经网络很困难，需要良好的技能和对建模的理解。

【讨论】：