【发布时间】:2021-02-26 15:55:22
【问题描述】:
我有多个 Excel 文件,每个文件中都有不同的工作表,这些文件已经成为我的人,所以每个文件都有不同的格式、不同的列数和不同的结构来表示数据。 例如,在一张纸中,数据框/表格从第 8 行第 2 列开始。在其他情况下,它从 122 行开始,等等......
我想从这些 Excel 中检索一些共同点,即变量名和信息。
但是,我不知道如何在不需要解析每个单独文件的情况下检索所有这些信息。这不是一个选项,因为这些文件很多,每个文件中有很多工作表。
我一直在考虑使用正则表达式以及编辑单词之间的距离,但我不知道这是否是最佳选择。
感谢任何帮助。
【问题讨论】:
-
不同格式之间是否有任何共同点来识别感兴趣的列? (我假设这些值都在列中,无论它们在工作表中的何处开始)。我认为您的问题太模糊,无法给出有意义的答案。数据是否以任何有意义的方式相似? (是数值列吗?有一定的范围吗?)
-
是的,工作表的不同位置有表格,但是表格的每个标题使用不同但相似的名称。问题太模糊的原因是因为问题模糊,有很多不同格式的文件,不同的列名,不同的顺序。
-
手动创建列标题同义词列表是否可行?然后遍历每个工作簿和工作表,寻找任何已知的标题,跳过空白行和列?
-
@GordonAitchJay 是的,有可能,但我认为这不是一个很好的方法,因为人们可以更改标题名称、标题顺序。还要解析所有的excel表格来搜索表格,这将花费大量时间。我认为解决这个问题的唯一方法是告诉人们为 Excel 制定标准格式。
-
我同意,看起来最好的选择是分发具有标准名称的 excel 模板。您在问题中建议的想法可能是最好的,您可以定义更高级的相似性指标而不是正则表达式,但我不知道有任何技术可以解决潜在问题