【发布时间】:2015-09-15 10:17:05
【问题描述】:
我想自动处理 .xls 文件中的一些数据。数据格式不同,因为它来自不同的来源。
手动处理数据会输出这种格式的文件:
ID(一个数字)|NAME(一个字符串)|PRICE(一个浮点数)
正如我所说,信息通常以列的形式显示,但也可以是行,也可以有两个表,我只需要处理其中一个。
我考虑了三种方法:
- 使用策略模式。缺点:无论如何我都必须对每个案例进行编码。
- 使用 ETL 工具。缺点:我认为这超出了我的需要。
- 使用线性回归或神经网络或其他机器学习算法,其中示例将是一对(.xls 原始文件,.xls 处理文件)。缺点:我不知道目标函数的指标是什么(两个 excel 文件之间的相似性?)
感谢任何帮助或提示!
【问题讨论】:
-
这里的问题可能有点太不具体了:从你的问题看来,你不是一个没有经验的程序员,但我猜测没有更多关于各种可能输入的细节格式(3?300?)很难提出“最佳”策略。
-
不同格式的数量大约是 70,无论如何它们中的大多数都非常相似,这就是为什么我认为使用策略模式 - 或者只是一个具有处理每种格式的方法的类 - 是最合适的.
标签: excel preprocessor etl