【发布时间】:2015-07-04 04:09:01
【问题描述】:
我正在尝试构建一个可以从网页下载数据的解析器。问题是页面可能是“动态生成的”。大括号中有一些代码可能会生成 html 代码。它看起来像 Django 代码。
这是一个模式:
<script charset="utf-8" type="text/javascript">var browseDefaultColumn = 4; var browse5ColumnLength= '15,24'; var browse4ColumnLength = '20,28'; var browse3ColumnLength = '25,42';var priceFilterSliderEnabled = true;var browseLowPageLength = 24;var browseHighPageLength = 100;</script>
<script id="products-template" type="text/template">
{{#products}}
<li class="{{RowCssClass}}" style="{{RowStyle}}" li-productid="{{ItemCode}}">
<div class="s-productthumbbox">
<div class="productimage s-productthumbimage col-xs-6 col-sm-12 col-md-12">
<a href="{{PrdUrl}}" class="s-product-sache">{{#ImgSashVisible}}
<img src="{{ImgSashUrl}}" class="rtSashImg img-responsive">
{{/ImgSashVisible}}
</a>
<a href="{{PrdUrl}}" class="ProductImageList">
<div>
<img class="rtimg img-responsive" src='{{MainImage}}' alt='{{Brand}} {{DisplayName}}' />
</div>
{{#EnableAltImages}}
<div class="AlternateImageContainerDiv">
<img class="rtimg ProductImageListAlternateImage img-responsive" src='{{AltImage}}' alt='{{Brand}} {{DisplayName}}' />
</div>
{{/EnableAltImages}}
</a>
<div class="QuickBuyAndWishListContainerDiv hidden-xs {{QuickBuyAndWishListCss}}">
{{#IsQuickBuyEnabled}}
我正在寻找一种方法来获取包含生成代码的整个代码,以便我可以使用 Beautiful Soup 来解析它。或其他获取数据的有效方式。
【问题讨论】:
标签: python html web-scraping screen-scraping