【发布时间】:2015-07-20 08:20:49
【问题描述】:
我正在编写一个 python 脚本,其中将运行一个循环并在多个目录中查找名称中带有字符串“_CriteriaOutput.html”的特定 html 页面。每个目录包含多个html文件和4-5个带有上述字符串的html文件。我想要做的是读取这些带有'_CriteriaOutput.html'名称的html文件并将其合并到一个不同的html文件中。我将在下面给出我的代码(到目前为止我做了什么)。此代码读取对我没用的 html 文件的源代码。我只想要文本(如果 html 文件中有的话)
import os
import fileinput
NightlyLogs = r'C:/Users/<user>/Desktop/Nightly_Logs/2015_07_16-0940'
dir = [fol for fol in os.listdir(NightlyLogs) if os.path.isdir(os.path.join(NightlyLogs, fol))]
dir = sorted(dir)
for folder in dir:
HtmlLoc = r'%s/%s' %(NightlyLogs, folder)
abc = [file for file in os.listdir(HtmlLoc) if file.endswith('_CriteriaOutput.html')]
for one in abc:
HtmlFile = r'%s/%s' %(HtmlLoc, one)
open_file = open(HtmlFile, 'r')
print open_file.read()
NightlyLogs 是一个包含具有 CL(更改列表)名称(例如 876564 或 865664 等)的文件夹的位置。每个 HTML 文件,例如 A_CriteriaOutput.html 或 B_CriteriaOutput.html 名称包含特定系列的信息(比如说 A 或 B 或 C 等),每个具有特定 CL 名称的文件夹包含类似的 _CriteriaOutput.html 文件,其中仅包含该 CL 的信息.我想制作一个表格,其中 CL 作为列,A、B、C、D、E 作为行,其中将包含该特定系列的信息。我试图具体说明,但如果您认为缺少某些信息,请帮助我学习。我会尽量提供尽可能多的信息。谢谢。
【问题讨论】:
-
我在上述线程中找不到我的问题的完整答案,除了我的问题不同并且更多的是关于创建 html 表。
-
那里的信息应该可以帮助您走得更远。它没有解释如何将信息整合到一个表格中,但它提供了关于如何从文件中读取信息的很好的信息。
-
感谢您指出这一点。你其实是对的。一旦我得到任何答复,我将提供更多信息。