【发布时间】:2016-01-15 20:50:24
【问题描述】:
我想从 URL“http://www.nycgo.com/venues/thalia-restaurant#menu”中抓取文本 我感兴趣的文本位于页面上的“菜单”选项卡中。我试过 BeautifulSoup 来获取页面上的所有文本,但是下面代码的返回值错过了菜单中的所有文本。
html = urllib2.urlopen("http://www.nycgo.com/venues/thalia-restaurant#menu")
html=html.read()
soup = BS(html)
print soup.get_text()
当我从菜单内容中检查元素时,菜单的内容似乎是页面上 html 的一部分。我确实注意到,在物理浏览页面时,菜单需要几秒钟才能完全加载。不确定这是否是上面的代码无法获取菜单内容的原因。
任何见解将不胜感激。
【问题讨论】:
-
如果没有任何特殊原因必须使用 Python 脚本完成,我建议使用wkhtmltopdf。
-
页面的内容是使用 Javascript 动态加载的。您无法仅通过下载 HTML 文本来获取所有内容。
-
@jumbopap 谢谢,我怀疑类似的事情可能是返回值错过菜单内容的原因。有什么建议可以解决这个问题吗?
-
@amphetamachine 谢谢,我尝试了该工具,但创建的 pdf 仍然缺少菜单内容:(
标签: python html beautifulsoup