【发布时间】:2010-10-14 20:29:15
【问题描述】:
我正在用 python 构建一个应用程序,我需要获取一个网页中所有链接的 URL。我已经有一个函数,它使用 urllib 从网上下载 html 文件,并使用 readlines() 将其转换为字符串列表。
目前我有这段代码使用正则表达式(我不太擅长)来搜索每一行的链接:
for line in lines:
result = re.match ('/href="(.*)"/iU', line)
print result
这不起作用,因为它只为文件中的每一行打印“无”,但我确信我正在打开的文件上至少有 3 个链接。
有人可以给我一个提示吗?
提前致谢
【问题讨论】:
-
Sigh,另一个试图用正则表达式解析 HTML/XML 的问题。仅供参考,不推荐使用解析器,正如 eduffy 所建议的那样。
-
为什么需要使用正则表达式?为什么 htmllib 不是一个选项?
-
嗯,主要是因为我想学习一些正则表达式:)