【发布时间】:2014-09-01 19:37:10
【问题描述】:
我想删除前 5 个(动态)到达航班和出发航班(schiphol.nl 主页上的另一个标签)。对于我输入的到达航班:
url = "www.schiphol.nl"
doc <- htmlParse(url)
xpathSApply(doc, "//ul[@class='flights']//tr", xmlValue)
给我结果 NULL 请帮助我在一个 DF 中显示 5 个显示的到达航班 + 另一个 DF 中的 5 个出发航班,甚至更好地全部放在一个 DF 中。谢谢
在 HTML 结构中,我看到我需要的到达航班的非结构化列表具有以下规格:
<ul class="flights" id="f238226">
<li id="tabS1" class="arrivals selected">
<a href="/Reizigers/Vluchttijden/Aankomsttijden.htm" onclick="return selecttabA(1);">Aankomst</a>
</li>
<li id="tabS2" class="departures">
<a href="/Reizigers/Vluchttijden/Vertrektijden.htm" onclick="return selecttabA(2);">Vertrek</a>
</li>
</ul>
<li id="tabS1" class="arrivals selected"><a
<div id="tab1">
<h2>Aankomst</h2>
<form action="/Reizigers/Vluchttijden/Aankomsttijden.htm" method="get" name="adv_flight_search" autocomplete="off">
</form>
<table>
<thead>
<tr>
<th>Schema</th>
<th>Vlucht</th>
<th>Herkomst</th>
<th>Opmerkingen</th>
</tr>
</thead>
<tbody>
<tr class="mark">
<td>13:15</td>
<td>AF 8387</td>
<td>Quito</td>
<td>Geland</td>
</tbody>
</table>
【问题讨论】:
标签: html xpath web-scraping