【问题标题】:How to process data with slightly different formats?如何处理格式略有不同的数据?
【发布时间】:2015-09-15 10:17:05
【问题描述】:

我想自动处理 .xls 文件中的一些数据。数据格式不同,因为它来自不同的来源。

手动处理数据会输出这种格式的文件:

ID(一个数字)|NAME(一个字符串)|PRICE(一个浮点数)

正如我所说,信息通常以列的形式显示,但也可以是行,也可以有两个表,我只需要处理其中一个。

我考虑了三种方法:

  1. 使用策略模式。缺点:无论如何我都必须对每个案例进行编码。
  2. 使用 ETL 工具。缺点:我认为这超出了我的需要。
  3. 使用线性回归或神经网络或其他机器学习算法,其中示例将是一对(.xls 原始文件,.xls 处理文件)。缺点:我不知道目标函数的指标是什么(两个 excel 文件之间的相似性?)

感谢任何帮助或提示!

【问题讨论】:

  • 这里的问题可能有点太不具体了:从你的问题看来,你不是一个没有经验的程序员,但我猜测没有更多关于各种可能输入的细节格式(3?300?)很难提出“最佳”策略。
  • 不同格式的数量大约是 70,无论如何它们中的大多数都非常相似,这就是为什么我认为使用策略模式 - 或者只是一个具有处理每种格式的方法的类 - 是最合适的.

标签: excel preprocessor etl


【解决方案1】:

我不是使用线性回归或神经网络的专家。

这是困难的情况之一,因为数据格式各不相同。 我在项目中观察到的是,我们每次都使用 ETL 工具(ssis)进行编码。 使用线性回归或神经网络很困难,需要良好的技能和对建模的理解。

【讨论】:

    猜你喜欢
    • 2022-06-11
    • 2020-03-05
    • 2015-02-22
    • 1970-01-01
    • 2019-08-28
    • 1970-01-01
    • 2013-09-01
    • 1970-01-01
    • 2014-08-08
    相关资源
    最近更新 更多