【发布时间】:2015-03-26 02:13:55
【问题描述】:
我正在尝试使用 python 从网页中提取一些 javascript。 我设法隔离了 javascript(其中包含我需要的数据),但是我无法定位具有我需要的信息的 js 变量。
javascript格式如下图
javascript在python中存储了一个名为links的变量
将脚本标签中的 {} 替换为
links = {script type="text/javascript"}
var ADC = ADC || {};
ADC.model = {};ADC.model.search = {"count": 48, "title": "Commercial Real Estate for Sale", "h1_text": "Commercial Properties for Sale", "asset": [{"pre_auction_enabled": false, "available": true, "registration_url": "http://www.auction.com/registration/event/commercial/B-152/8024124/",....}]}
我缩短了 ADC.model.search 的内容,但其余数据遵循相同的格式。我只需要 ADC.model.search 变量中包含的信息。
我通过这样做来隔离 javascript:
links = source_code.find_all("script", {"type" : "text/javascript"})
source_code 是我要抓取的页面的整个源代码
如何提取 ADC.model.search 的内容?
【问题讨论】:
标签: javascript python html web-scraping beautifulsoup