将 lxml 输出传递给 BeautifulSoup答案

【问题标题】：Passing lxml output to BeautifulSoup将 lxml 输出传递给 BeautifulSoup
【发布时间】：2012-11-29 14:22:33
【问题描述】：

我的离线代码工作正常，但我无法通过 lxml 将网页从 urllib 传递到 BeautifulSoup。我使用 urllib 进行基本身份验证，然后使用 lxml 进行解析（它对我们需要抓取的特定页面提供了很好的结果），然后是 BeautifulSoup。

#! /usr/bin/python
import urllib.request 
import urllib.error 
from io import StringIO
from bs4 import BeautifulSoup 
from lxml import etree 
from lxml import html 

file = open("sample.html")
doc = file.read()
parser = etree.HTMLParser()
html = etree.parse(StringIO(doc), parser)
result = etree.tostring(html.getroot(), pretty_print=True, method="html")
soup = BeautifulSoup(result)
# working perfectly

通过这个工作，我尝试通过 urllib 向它提供一个页面：

# attempt 1
page = urllib.request.urlopen(req)
doc = page.read()
# print (doc)
parser = etree.HTMLParser()
html = etree.parse(StringIO(doc), parser)
# TypeError: initial_value must be str or None, not bytes

试图处理错误信息，我试过了：

# attempt 2
html = etree.parse(bytes.decode(doc), parser)
#OSError: Error reading file

我不知道如何处理 OSError，所以我寻求另一种方法。我找到了使用 lxml.html 而不是 lxml.etree 的建议，所以下一次尝试是：

attempt 3
page = urllib.request.urlopen(req)
doc = page.read()
# print (doc)
html = html.document_fromstring(doc)
print (html)
# <Element html at 0x140c7e0>
soup = BeautifulSoup(html) # also tried (html, "lxml")
# TypeError: expected string or buffer

这显然给出了某种结构，但是如何将它传递给 BeautifulSoup？我的问题是双重的：如何将页面从 urllib 传递到 lxml.etree（如 attampt 1 中，最接近我的工作代码）？或者，如何将 lxml.html 结构传递给 BeautifulSoup（如上）？我知道两者都围绕数据类型，但不知道如何处理它们。

python 3.3、lxml 3.0.1、BeautifulSoup 4。我是 python 新手。感谢互联网提供代码片段和示例。

【问题讨论】：

标签： python beautifulsoup lxml

【解决方案1】：

BeautifulSoup 可以使用lxml parser directly，无需赘述。

BeautifulSoup(doc, 'lxml')

【讨论】：

天哪，谢谢！我看到了那个页面，但不明白它这么简单。再次感谢。