【发布时间】:2014-12-30 14:47:16
【问题描述】:
我有一个大的 csv(大约 400k 行),我希望将其转换为 python 中的数据框。原始文件有两列:一个文本列,后跟一个 int(或 NAN)列。
例子:
...
P-X1-6030-07-A01 368963
P-X1-6030-08-A01 368964
P-X1-6030-09-A01 368965
P-A-1-1011-14-G-01 368967
P-A-1-1014-01-G-05 368968
P-A-1-1017-02-D-01 368969
...
我希望按照示例文本的最后三行的模式另外将文本列拆分为一系列列(例如P A 1 1017 02 D 01 368969)
注意到文本字段可以有不同的格式(P-X1 vs P-X-1),如何才能最好地完成?
【问题讨论】:
-
另外,我可能想简单地丢弃或跳过第二种格式的条目,其中包含额外的连字符,而不必解析它们。
-
我在不同的行中看到不同数量的连字符。结果不会是表格的。
DataFrame每行中的列数必须相同。我误解了这个问题吗? -
P-X1 部分可以正确表示为 P-X1 或 P-X-1。后一种格式会更有用,但大部分数据都是前一种格式。同样,A01 更好地表示为 A-01,但大部分数据采用 A01 格式。因此,组件需要进行一些解析,以使所有数据正确地放入正确的存储桶中。
-
我想我知道了,你会查看我的答案吗?
标签: python regex csv pandas dataframe