【发布时间】:2015-03-12 03:18:44
【问题描述】:
我正在寻找编写一个 Python 脚本(使用 3.4.3),它从 URL 中获取 HTML 页面,并可以通过 DOM 尝试查找特定元素。
我目前有这个:
#!/usr/bin/env python
import urllib.request
def getSite(url):
return urllib.request.urlopen(url)
if __name__ == '__main__':
content = getSite('http://www.google.com').read()
print(content)
当我打印内容时,它会打印出整个 html 页面,这与我想要的内容很接近……尽管我希望能够在 DOM 中导航,而不是将其视为一个巨大的字符串。
我对 Python 还很陌生,但对多种其他语言(主要是 Java、C#、C++、C、PHP、JS)有一定的经验。我以前用 Java 做过类似的事情,但想在 Python 中尝试一下。
感谢任何帮助。 干杯!
【问题讨论】:
-
您应该为此使用BeautifulSoup 之类的东西。
-
接近与Parsing HTML Python重复。
-
你也可以使用lxml。
标签: python html dom httprequest