【发布时间】:2011-09-07 12:28:30
【问题描述】:
我想使用 R 的 XML 包来抓取 html 表,方法与此线程中讨论的类似:
Scraping html tables into R data frames using the XML package
与我要提取的数据的主要区别在于,我还想要与 html 表中的图像相关的文本。例如,http://www.theplantlist.org/tpl/record/kew-422570 的表格包含一列“信心”,其中的图像显示一到三颗星。如果我使用:
readHTMLTable("http://www.theplantlist.org/tpl/record/kew-422570")
那么“信心”的输出列除了标题之外是空白的。有什么方法可以在此列中获取某种形式的数据,例如链接到相应图像的 HTML 代码?
任何有关如何解决此问题的建议将不胜感激!
【问题讨论】:
标签: r xml web-scraping html-table