【发布时间】:2014-05-02 16:28:28
【问题描述】:
我要抓取的网站使用 JavaScript 填充返回。
我可以简单地以某种方式调用脚本并使用其结果吗? (当然,没有分页。)我不想运行整个东西来抓取生成的格式化 HTML,但原始源是空白的。
看看:http://kozbeszerzes.ceu.hu/searchresults.xhtml?q=1998&page=0
回报的来源很简单
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="/templates/base_template.xsl"?>
<content>
<head>
<SCRIPT type="text/javascript" src="/js/searchResultsView.js"></SCRIPT>
</head>
<whitebox>
<div id = "hits"></div>
</whitebox>
</content>
我更喜欢简单的 Python 工具。
【问题讨论】:
-
我只是在研究这个,但是试试 PhantomJS 和 Selenium WebDriver。我会尽力为您解答。
标签: javascript python web-scraping