【发布时间】:2011-08-06 18:10:10
【问题描述】:
我正在尝试在 Python 中进行一些 HTML 解析,老实说,我很害怕。我一直在谷歌搜索方法来做到这一点,但无法得到任何工作。这是我的情况。我有一个包含大量下载链接的网页。我想要做的是指定一个搜索字符串,如果我要搜索的字符串在那里,下载文件。但它需要获取整个文件名。例如,如果我正在搜索 game-1 并且实际游戏的名称是 game-1-something-else,我希望它下载 game-1-1something-else。我已经使用以下代码来获取页面的来源:
import urllib2
file = urllib2.urlopen('http://www.example.com/my/example/dir')
dload = file.read()
这会抓取网页的整个源代码,它本身只是一个目录。例如,我有很多标签。我有<a href 标签、<td> 标签等。我想对标签进行字符串化,所以我所拥有的只是网页目录中的文件列表,然后我想使用正则表达式或类似的东西搜索我要搜索的内容,获取整个文件名,然后下载。
【问题讨论】:
-
lxml.html是你的朋友。 XPath 也是如此。 -
您不能使用正则表达式来解析 HTML。真的。绝不。美人——ootiful Soo-oop!美人——ootiful Soo-oop!电子-电子--晚上的Soo-oop,美丽,美丽的汤!