【发布时间】:2015-01-16 00:48:10
【问题描述】:
我有多个 CSV 文件,它们可以以多种方式表示相似的事物。例如,15 年可以写成 age: 15, age (years): 15, age: 15 岁(这些都是我目前看到的模式)。我想用 15 年替换所有这些。当我知道实际年龄或列号时,我知道该怎么做,但是每次出现的年龄肯定不同,并且列不固定。 csv 文件可能如下所示:
CSV1:
h1,h2,h3
A1,age:15,hh
B3,age:10,fg
所需的 CSV1
h1,h2,h3
A1,15 years,hh
B3,10 years,fg
当它的正确年龄:15 岁时,它肯定是年,而不是月或任何其他单位。
【问题讨论】:
-
对于年龄字段,数字就足够了吗?如果是这样,您可以使用
str.translae方法。创建一个将字母映射到空字符串的表。一个例子是here -
@b10n:这听起来是个好主意......除了你遗漏了很多细节 - 所以我建议你发布一个包含一些实际代码的答案。
-
@dan:您建议如何确定要修复的列?
-
@martineau 如果您是指要使用文件中的哪一列,坦率地说我没有答案,因为我有多个文件,每个文件都由来自世界各地的研究人员处理.所以格式不一样。
-
@b10n 我需要在数字后面加上“年”。