【发布时间】:2021-03-31 00:21:08
【问题描述】:
我正在创建一个网络抓取工具,用于收集文章的全文。因此,现在我无法获取文章全文所需的 html。文本应稍后输出到 csv 中,文本全部在一行中
我的输出当前为空白
我的程序如下:
library(rvest)
library(RCurl)
library(XML)
library(stringr)
#for Fulltext to read pdf
####install.packages("pdftools")
library(pdftools)
fullText <- function(parsedDocument){
fullText <- parsedDocument %>%
html_nodes("a.article-body") %>%
html_text() %>%
return(fullText)
}
#main function with input as parameter year
testFullText <- function(DOIurl){
parsedDocument <- read_html(DOIurl)
DNAresearch <- data.frame()
allData <- data.frame("Full Text" = fullText(parsedDocument), stringsAsFactors = FALSE)
DNAresearch <- rbind(DNAresearch, allData)
write.csv(DNAresearch, "DNAresearch.csv", row.names = FALSE)
}
testFullText("https://doi.org/10.1093/dnares/dsm026")
【问题讨论】:
标签: html r web web-scraping