【发布时间】:2014-04-23 05:17:47
【问题描述】:
我在解析网页时遇到问题,因为我在解析网页时得到了不同的页面源:
display = Display(visible=False, size=(800, 600), backend='xvfb')
display.start()
driver = webdriver.Firefox()
url = "http://www.aaa.com"
driver.get(url)
with codecs.open('page.html', 'w', 'utf-8') as f:
f.write(driver.page_source)
当我打开文件查看实际文本时,它与我在浏览器中单击鼠标右键得到的不同。
例如,某些 href 变成小写。 以及页面源代码中的一些标签:
<table class="list" boroder="0" id="list_id">
变成了
<table border="0" id="list_id" class="list">
我很确定这与我请求的网址相同...
【问题讨论】:
-
标签的顺序和hrefs的大小写实际上并不重要。你关心它的原因是什么?
-
@alecxe 因为我必须解析 html,所以在使用 selenium 并将页面源保存到文件时它的工作方式不同。
-
如果您需要解析它,那么正如@alecxe 所说,没关系。如果您的解析器有问题,那么这是一个大问题,请切换到其他解析器。
标签: javascript jquery python-2.7 selenium