【问题标题】:How to extract javascript variable in HTML source code如何在 HTML 源代码中提取 javascript 变量
【发布时间】:2015-03-26 02:13:55
【问题描述】:

我正在尝试使用 python 从网页中提取一些 javascript。 我设法隔离了 javascript(其中包含我需要的数据),但是我无法定位具有我需要的信息的 js 变量。

javascript格式如下图

javascript在python中存储了一个名为links的变量

将脚本标签中的 {} 替换为

links = {script type="text/javascript"} var ADC = ADC || {}; ADC.model = {};ADC.model.search = {"count": 48, "title": "Commercial Real Estate for Sale", "h1_text": "Commercial Properties for Sale", "asset": [{"pre_auction_enabled": false, "available": true, "registration_url": "http://www.auction.com/registration/event/commercial/B-152/8024124/",....}]}

我缩短了 ADC.model.search 的内容,但其余数据遵循相同的格式。我只需要 ADC.model.search 变量中包含的信息。

我通过这样做来隔离 javascript:

links = source_code.find_all("script", {"type" : "text/javascript"})

source_code 是我要抓取的页面的整个源代码

如何提取 ADC.model.search 的内容?

【问题讨论】:

    标签: javascript python html web-scraping beautifulsoup


    【解决方案1】:

    正则表达式怎么样?

    links 来自您上面的代码;

    import re
    pattern='ADC\.model\.search=([^;\]]+?)'
    match = re.match(pattern, links, re.i)  # 'links' goes from your code abouve 
    print match.group(1)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-09-03
      • 1970-01-01
      • 1970-01-01
      • 2011-12-15
      • 1970-01-01
      • 2013-03-24
      相关资源
      最近更新 更多