【发布时间】:2015-01-10 20:38:39
【问题描述】:
我正在使用 BeautifulSoup 解析来自this page 的一堆链接,但它没有提取出我想要的所有链接。为了找出原因,我将 html 下载到“web_page.html”并运行
soup = BeautifulSoup(open("web_page.html"))
print soup.get_text()
我注意到它不会打印整个网页。它在布拉克利结束。我查看了 html 代码,看看“Brackley”是否发生了一些奇怪的事情,但我找不到任何东西。另外,如果我将另一个链接移动到 Brackley 的位置,它将打印该链接而不是 Brackley。似乎它只会读取一定大小的html文件?
【问题讨论】:
标签: python html web-scraping beautifulsoup