【发布时间】:2015-05-15 13:40:50
【问题描述】:
我正在尝试提取字典条目:
url = 'http://www.lingvo.ua/uk/Interpret/uk-ru/вікно'
# parsed_url = urlparse(url)
# parameters = parse_qs(parsed_url.query)
# url = parsed_url._replace(query=urlencode(parameters, doseq=True)).geturl()
page = urllib.request.urlopen(url)
pageWritten = page.read()
pageReady = pageWritten.decode('utf-8')
xmldata = lxml.html.document_fromstring(pageReady)
text = xmldata.xpath(//div[@class="js-article-html g-card"])
无论是打开还是关闭注释行,它都会不断出错:
UnicodeEncodeError: 'ascii' codec can't encode characters in position 24-28: ordinal not in range(128)
【问题讨论】:
-
我怀疑这是否来自注释行:它几乎肯定来自
decode('utf-8')调用,如果您发布了回溯就很清楚了。为什么需要那条线?如果删除它会发生什么? -
@DanielRoseman 没有任何变化,同样的错误。我在这里stackoverflow.com/questions/29435893/… 遇到了同样的问题,但现在我使用不同的 url 没有参数(这就是我评论这些行的原因)。还是不知道答案
-
@MartinPieters 我可以请你帮忙吗?你已经在这里帮助过一次stackoverflow.com/questions/29435893/…
-
@cpburnz 没有成功(
-
您应该养成在问题中包含完整回溯的习惯。到目前为止,我认为问题出在您的
.decode上。问题是网址...