【问题标题】:Dynamically generated webpage scraping动态生成的网页抓取
【发布时间】:2015-07-04 04:09:01
【问题描述】:

我正在尝试构建一个可以从网页下载数据的解析器。问题是页面可能是“动态生成的”。大括号中有一些代码可能会生成 html 代码。它看起来像 Django 代码。

这是一个模式:

<script charset="utf-8" type="text/javascript">var browseDefaultColumn = 4; var browse5ColumnLength= '15,24'; var browse4ColumnLength = '20,28'; var browse3ColumnLength = '25,42';var priceFilterSliderEnabled = true;var browseLowPageLength = 24;var browseHighPageLength = 100;</script>
<script id="products-template" type="text/template">
    {{#products}}
        <li class="{{RowCssClass}}" style="{{RowStyle}}" li-productid="{{ItemCode}}">
            <div class="s-productthumbbox">
                <div class="productimage s-productthumbimage col-xs-6 col-sm-12 col-md-12">
                    <a href="{{PrdUrl}}" class="s-product-sache">{{#ImgSashVisible}}
                            <img src="{{ImgSashUrl}}" class="rtSashImg img-responsive">
                        {{/ImgSashVisible}}
                    </a>
                    <a href="{{PrdUrl}}" class="ProductImageList">
                        <div>
                            <img class="rtimg img-responsive" src='{{MainImage}}' alt='{{Brand}} {{DisplayName}}' />
                        </div>
                        {{#EnableAltImages}}
                            <div class="AlternateImageContainerDiv">
                                <img class="rtimg ProductImageListAlternateImage img-responsive" src='{{AltImage}}' alt='{{Brand}} {{DisplayName}}' />
                            </div>
                        {{/EnableAltImages}}
                    </a>
                    <div class="QuickBuyAndWishListContainerDiv hidden-xs {{QuickBuyAndWishListCss}}">
                        {{#IsQuickBuyEnabled}}

我正在寻找一种方法来获取包含生成代码的整个代码,以便我可以使用 Beautiful Soup 来解析它。或其他获取数据的有效方式。

【问题讨论】:

    标签: python html web-scraping screen-scraping


    【解决方案1】:

    您拥有的 HTML 可能是一个模板,它需要由模板引擎解析以填充内容,之后您应该能够获得最终的 HTML 并对其进行解析。
    您通常不会从服务器获取模板 HTML 服务器,这一定是离线文件?

    【讨论】:

      猜你喜欢
      • 2016-04-07
      • 2013-12-30
      • 1970-01-01
      • 1970-01-01
      • 2021-12-30
      • 1970-01-01
      • 1970-01-01
      • 2019-08-16
      • 1970-01-01
      相关资源
      最近更新 更多