【发布时间】:2014-09-15 22:01:16
【问题描述】:
我正在尝试使用 BeautifulSoup 从网页中收集链接。到目前为止,我已经能够做到这一点,并使用当前从代码中注释掉的打印命令在命令提示符下将它们打印出来。我遇到的问题是当链接保存到 Output.txt 文件时,它们都相互覆盖,只保存最后一个链接。非常感谢任何帮助!
如果您对在一个程序中完成此转换有任何建议,请参阅我的最终目标。 我的最终目标是搜索 txt 文件中的链接,以确定其中是否包含特定文本。如果有,我想返回“Broken Link”或“Not Broken”。
soup = BeautifulSoup(html_doc) #html doc is source code for website i am using
for link in soup.find_all(rel="bookmark"):
Gamma =(link.get('href'))
f =open('Output.txt','w')
f.write(Gamma)
f.close()
#print(Gamma)
【问题讨论】:
标签: python web-scraping beautifulsoup