【发布时间】:2012-04-20 02:48:33
【问题描述】:
我想抓取这个网站的数据(http://www.oddsportal.com/matches/soccer),以便以这种方式获取包含比赛信息和赔率信息的纯文本文件:
00:30 Criciuma - Atletico-PR 1:2 2.70 3.24 2.41
10:45 Vier-und Marschlande - Concordia Hamburg 0:0 4.00 3.53 1.68
10:45 Germania Schnelsen - ASV Bergedorf 85 2:3 1.95 3.37 3.23
10:45 Barmbecker SG - Altona 0:2 3.67 3.37 1.82
我以前用 w3m 做这个,但现在他们似乎将 html 更改为 javascript 并且 w3m 不起作用。数据仅包含在一个 div 中。这是一个条目
<tr xeid="862487"><td class="table-time datet t1333724400-1-1-0-0 ">17:00</td><td class="name table-participant" colspan="2"><a href="/soccer/italy/serie-b-2011-2012/brescia-marmi-lanza-verona-862487/">Brescia - Verona</a></td><td class="odds-nowrp" xoid="40456791" xodd="xzc0fxzxa">-</td><td class="odds-nowrp" xoid="40456793" xodd="cz0ofxz9c">-</td><td class="odds-nowrp" xoid="40456792" xodd="cz9xfcztx">-</td><td class="center info-value">17</td></tr>
我能做什么?
【问题讨论】:
-
您能否提供更多关于他们如何使用 Javascript 的信息?这将决定潜在的解决方案。
-
我仍然可以看到 HTML 源代码中的值。
-
@Fenisko 我不能。怎么可能?
-
不知道。在 Firefox 中,我可以在可识别的 HTML 中看到表格。所以我想用 BeautifulSoup 工作 20 分钟 ;-)。
-
@Fenisko - 仅仅因为你可以在 Firefox 中看到它并不意味着它在响应中。
标签: javascript screen-scraping web-scraping w3m