【发布时间】:2014-06-12 14:49:34
【问题描述】:
我是编程和 R 方面的新手。我需要一点帮助。我的请求很简单(我知道,我很惭愧),因为你会很快解决。我正在从事一个入侵植物物种项目,我需要此列表中的植物物种名称列表:http://www.issg.org/database/species/List.asp
物种的名称是超链接,我如何将名称提取到数据框或表格中?
我一直在使用下面的代码提取链接,但链接中的文本没有物种的名称:
url <- "http://www.issg.org/database/species/List.asp"
doc <- htmlParse(url)
links <- xpathSApply(doc, "//a/@href")
链接文本是这样的:
第一个物种(例如“ecology.asp?si=1590&fr=1&sts=&lang=EN”)
第二种(例如“ecology.asp?si=1043&fr=1&sts=&lang=EN”)
....
任何帮助将不胜感激。
【问题讨论】:
标签: html r hyperlink web-scraping text-extraction