【发布时间】:2021-02-14 18:27:40
【问题描述】:
我正在处理一个文件,该文件在时间之后的下一行包含时间和值。我可以将时间提取到列表中,但还需要获取以下行的值。这将是时间/值对的列表。
文件如下所示:
10:30 AM
F
10:40 AM
10:50 AM
F
11:00 AM
1
11:10 AM
11:20 AM
1
11:30 AM
1
11:40 AM
1
11:50 AM
1
12:00 PM
12:10 PM
1
12:20 PM
1
12:30 PM
1
12:40 PM
1
12:50 PM
1
我用来获取时间的代码是这样的:
get_source = driver.page_source
soup = BeautifulSoup(get_source, 'html.parser')
time_pattern = re.compile(r'\s(\d{1,2}\:\d{2}\s?(?:AM|PM|am|pm))')
times = time_pattern.findall(soup.get_text())
在哪里
times = ['10:30 AM', '10:40 AM', '10:50 AM', '11:00 AM'........]
我还想获取下一行的值(空白、F 或 1)创建时间/值对。
timesvaluepair = [[10:30 AM, 'F'],[10:40 AM, ''],[10:50 AM, 'F'],[11:00 AM, '1'],.........]
你会怎么做?
【问题讨论】:
-
该文件不是 HTML 文件。为什么需要 BeautifulSoup?
-
你可以试试这个
time_pattern = re.compile(r'(\d{1,2}:\d{2}\s?[AP]M)[\r\n]+([a-z\d]?)', re.I) -
您的问题有几个答案。我注意到您尚未接受问题的答案。有什么理由吗?为了结束您的问题,我建议您将其中一个答案标记为已接受,并希望您也可以结束您提出的其他问题。
-
张贴的答案是否有效?
标签: python-3.x regex