【发布时间】:2021-04-09 19:28:58
【问题描述】:
我有一个 data.frame (dim: 100 x 1) 包含一个 url 链接列表,每个 url 看起来像这样:https:blah-blah-blah.com/item/123/index.do。
列表(该列表是一个名为my_list 的data.frame,有100 行和一个名为col 的单列,采用字符格式$ col: chr)看起来像这样:
1 "https:blah-blah-blah.com/item/123/index.do"
2" https:blah-blah-blah.com/item/124/index.do"
3 "https:blah-blah-blah.com/item/125/index.do"
etc.
我正在尝试将这些 url 中的每一个导入 R 并将对象共同保存为与文本挖掘过程兼容的对象。
我知道如何手动成功转换每个网址(在列表中):
library(pdftools)
library(tidytext)
library(textrank)
library(dplyr)
library(tm)
#1st document
url <- "https:blah-blah-blah.com/item/123/index.do"
article <- pdf_text(url)
成功创建此“文章”文件后,我可以对其进行检查:
str(article)
chr [1:13]
看起来像这样:
[1] "abc ....."
[2] "def ..."
etc etc
[15] "ghi ...:
从这里,我可以成功地将它保存为 RDS 文件:
saveRDS(article, file = "article_1.rds")
有没有办法同时对所有 100 篇文章执行此操作?也许有一个循环?
类似:
for (i in 1:100) {
url_i <- my_list[i,1]
article_i <- pdf_text(url_i)
saveRDS(article_i, file = "article_i.rds")
}
如果编写正确,它会将每篇文章保存为 RDS 文件(例如 article_1.rds、article_2.rds、...article_100.rds)。
是否可以将所有这些文章保存到一个rds 文件中?
【问题讨论】: