【发布时间】:2015-02-18 07:32:30
【问题描述】:
我正在尝试使用 xml minidom 解析 www.amazon.com 源 HTML,如下所示。
def start_parser(self, analysis_id, url):
dom = None
path = self.create_analysis_folder(analysis_id)
self.get_generated_html(url)
for root, dirs, files in os.walk(path):
for file in files:
if file.endswith('.html'):
dom = parseString(open(path + '/' +file).read())
shutil.rmtree(os.getcwd())
break
return dom
该方法执行一些基本的文件夹操作,然后调用parseString 并为其提供html 源代码。执行时出现以下错误。
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 20, column 20
谁能解释一下这是什么意思以及如何摆脱它。
【问题讨论】:
标签: python xml html-parsing minidom