【问题标题】:Parse files names given specific format in Python在 Python 中解析给定特定格式的文件名
【发布时间】:2020-02-12 18:28:22
【问题描述】:

我想创建一个 DataFrame 来解析某些具有特定格式的文件的名称。

文件名格式: event_A_(number)_(start datetime)_(end datetime)_(code)_(category).txt

日期时间格式:YYYY-MM-DD_HH-MM_SS

名称文件示例:event_A_12_2019-01-22_01-35_20_2019-01-22_19-15_13_b123_aa.txt

我尝试过使用拆分,然后是简单的正则表达式,然后是合并字符串,但它必须是一种简单的方法。关于如何完成此任务的任何建议?

这是我设法做到的,但我相信应该有一个更简单的方法:

lst_split = file.split('_')
#number = re.findall(r"_A_(..)",file)
number = lst_split[2]
start_date = lst_split[3]
tmp = lst_split[4] + ":" + lst_split[5]
start_time = tmp.replace('-',':')
end_date = lst_split[6]
tmp = lst_split[7] + ":" + lst_split[8]
end_time = tmp.replace('-',':')
code = lst_split[9]
tmp = (lst_split[10]).split('.')
category = tmp[0]
print(number,start_date,start_time,end_date,end_time,code,category)

【问题讨论】:

  • 在日期时间格式中使用下划线会使拆分变得比需要的困难得多。您可以改用YYYY-MM-DD-HH-MM-SS 之类的日期格式吗?然后你可以在_上拆分。
  • 文件名具有这种格式,我想我可以在解析之前更改名称,但我认为它也需要某种解析。

标签: python string parsing format


【解决方案1】:

您可以使用解包将所有部分放入变量中。然后您将拥有更清晰的代码和更少的转换:

file = "event_A_12_2019-01-22_01-35_20_2019-01-22_19-15_13_b123_aa.txt"
_,_,number,start_date,startHM,startS,end_date,endHM,endS,code,category = file.split("_")
start_time = f"{startHM}:{startS}".replace("-",":")
end_time   = f"{endHM}:{endS}".replace("-",":")
category   = category.strip(".txt")
print(number,start_date,start_time,end_date,end_time,code,category)

# 12 2019-01-22 01:35:20 2019-01-22 19:15:13 b123 aa

请注意,您也可以使用(相当笨拙的)正则表达式将其分解,但您仍然需要对组件进行分隔符替换。

【讨论】:

  • 谢谢。这看起来比我的代码更“pythonic”:-)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-04-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多