帮助用python解析页面答案

【问题标题】：Help parsing a page with python帮助用python解析页面
【发布时间】：2010-01-27 10:37:28
【问题描述】：

我想解析一个网页以获取视频下载的 url。我使用 python 和 firebug，但我无法获取 url 链接。

例子：

我必须获取视频链接的网址是： hxxp://www.rtve.es/mediateca/videos/20100125/saber-comer---salsa-verde-judiones-25-01-10/676590.shtml"

视频是 hxxp://www.rtve.es/resources/TE_SSAC011/flv/8/2/1264426362028.flv 请问你能帮帮我吗？非常感谢和抱歉我的英语！

【问题讨论】：

顺便说一句，你可以下载那个电影剪辑吗？
请注意，这些视频链接是由 javascript 生成的。

标签： python parsing screen-scraping

【解决方案1】：

使用BeautifulSoup 或lxml。

【讨论】：

谢谢。问题是我无法获得视频链接。但是，如果我在网页中按下播放按钮，我可以下载带有 Firefox 扩展名“下载助手”的视频文件，但我想自动执行此操作。有什么帮助吗？
那么你误解了这个问题。如果您需要反编译 SWF 文件，那么您将不得不在别处寻找。
视频由javascript生成。因此，您不能真正使用 HTML 解析器。

【解决方案2】：

import re 
from urllib2 import urlopen
text = urlopen('http://www.rtve.es/mediateca/videos/20100125/saber-comer---salsa-verde-judiones-25-01-10/676590.shtm').read()
reg = re.compile(r'http://www\.rtv.*flv')
reg.findall(text)

通常你可以使用这个。但是里面没有你的链接。

【讨论】：

你也可以使用上面提到的BeatifulSoup或mechanise。
谢谢。问题是我无法获得视频链接。但是，如果我在网页中按下播放按钮，我可以下载带有 Firefox 扩展名“下载助手”的视频文件，但我想自动执行此操作。有什么帮助吗？

【解决方案3】：

@OP，这些视频是由 javascript 生成的。有关此主题，请参阅 here。或search google 供参考。

【讨论】：

非常感谢，我尝试寻找替代方案，但我什么也没找到。我必须手动下载视频 :-( 非常感谢！