【发布时间】:2017-07-27 00:04:07
【问题描述】:
我已将网站的 HTML 代码保存在我计算机上的 .txt 文件中。我想使用以下代码从该文本文件中提取所有 URL:
def get_net_target(page):
start_link=page.find("href=")
start_quote=page.find('"',start_link)
end_quote=page.find('"',start_quote+1)
url=page[start_quote+1:end_quote]
return url
my_file = open("test12.txt")
page = my_file.read()
print(get_net_target(page))
但是,该脚本只打印第一个 URL,而不是所有其他链接。这是为什么呢?
【问题讨论】:
标签: python html url html-content-extraction