【发布时间】:2016-03-12 23:25:27
【问题描述】:
我正在尝试为我不拥有的网站创建一个“API”,并尝试从页面上抓取信息,但是我尝试了有关 stackoverflow 和其他有关 DOM 和正则表达式的位置的建议,这通常需要一个上下文或特定的 div id 标签,看起来这个网站不使用,只使用通用标签,有没有办法可以从网站上刮掉信息?
我会尝试抓取的 HTML 示例:
<div class="col-md-6">
<strong style="font-weight:500;">Date Created</strong>
</div>
<div class="col-md-6">
03-12-2016 4:08PM
div>
或
<div class="col-xs-6 col-md-2 text-center">
<font style="font-size:22px;">
Feb 12, 2016
</font>
<br />
<div style="color:#999;">join date</div>
</div>
我如何能够抓取创建日期(实际日期)和加入日期?我在网络编程方面不是那么先进,所以我找不到其他任何东西,我通常只使用 PHP。
【问题讨论】:
-
如果你知道 python,有一个很棒的报废库 Beautiful Soup,它可以做到这一点。
标签: javascript php html regex web-scraping