【发布时间】:2014-05-10 22:54:10
【问题描述】:
我正在开展一个项目,我需要在其中抓取多个网站并从中收集不同类型的信息。文本、链接、图像等信息。
我为此使用 Python。为此,我在 HTML 页面上尝试了 BeautifulSoup,它可以工作,但是在解析包含大量 JavaScript 的网站时我被卡住了,因为这些文件的大部分信息都存储在 <script> 标记中。
任何想法如何做到这一点?
【问题讨论】:
-
附带说明,selenium 比 Ghost 轻得多。
标签: javascript python parsing web-scraping web-crawler