【发布时间】:2015-08-25 22:45:08
【问题描述】:
我正在尝试使用漂亮的汤从网页中抓取一些数据。
当我尝试将 HTML 文档转换为 beautifulsoup 对象时遇到了问题。
当我运行代码时
soup = BeautifulSoup(html_doc)
我得到的错误信息是:
SyntaxError: Non-ASCII character '\xa9' in file C:/Users/mlee/PycharmProjects/BsTest/htmlparse.py on line 683, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
我相信这是因为 html 中有一些 asp.net viewstate 对象是 base64 编码的。
是否有建议的解决方法,还是我必须使用其他工具?
另外,我主要只是对获取 javascript 生成的文本部分感兴趣。有更好的方法吗?
谢谢!
【问题讨论】:
标签: python asp.net web web-scraping beautifulsoup