【发布时间】:2011-08-14 14:22:27
【问题描述】:
我在 R 中有一部分 HTML 代码,如下所示:
"</a> <img src=\"images/arrow_orange.gif\" width=\"8\" height=\"12\"> <a href=\"group.php?g=1\">XXXX</a> <img src=\"images/arrow_orange.gif\" width=\"8\" height=\"12\"> <a href=\"category.php?c=100050\">YYYY</a> <img src=\"images/arrow_orange.gif\" width=\"8\" height=\"12\"> <a href=\"category.php?c=100050&brand=Motorola\">ZZZZ</a> <img src=\"images/arrow_orange.gif\" width=\"8\" height=\"12\">AAAA"
我想使用 gsub 删除不需要的 HTML 代码,这样输出将是:
XXXX YYYY ZZZZ AAAA
我尝试了<([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1>,如图所示here,但失败了,为什么?
我如何在 R 中做到这一点?谢谢。
【问题讨论】:
-
使用
XML库和xPath查询从html 代码中提取名称可能更简洁。如果您发布指向包含 html 代码的网页的链接,那么 SO 上有很多人可以为您提供有关如何提取所需信息的指针。 -
这个问题应该和其他问题合并吗? stackoverflow.com/questions/7057374/…