【发布时间】:2014-04-08 09:56:39
【问题描述】:
我正在尝试将信息从网站 (html) 获取到 MATLAB。我可以使用以下方法将 html 从在线获取为字符串:
urlread('http://www.websiteNameHere.com...');
一旦我有了字符串,我就有了一个很长的字符串变量,它包含了整个 html 文件的内容。从这个变量中,我正在寻找非常具体的类中的值/字符。例如,html/website 会有一堆行,然后会有如下形式的感兴趣的类:
...
<h4 class="price">
<span class="priceSort">$39,991</span>
</h4>
<div class="mileage">
<span class="milesSort">19,570 mi.</span>
</div>
...
<h4 class="price">
<span class="priceSort">$49,999</span>
</h4>
<div class="mileage">
<span class="milesSort">9,000 mi.</span>
</div>
...
我需要能够获取<span class="priceSort"> 和</span> 之间的信息;即上述示例中的 39,991 美元和 49,999 美元。解决此问题的最佳方法是什么?如果标签是特定的开头和结尾也相同(例如<price>和</price>),我就没有问题...
我还需要知道最可靠的方法,因为我也希望能够找到<span class="milesSort"> 和其他此类信息。谢谢!
【问题讨论】:
标签: html regex matlab parsing urlread