使用 Scopus API（rscopus 包）从搜索中下载所有 XML答案

【问题标题】：Using the Scopus API (rscopus package) to download all XMLs from a search使用 Scopus API（rscopus 包）从搜索中下载所有 XML
【发布时间】：2020-09-01 16:51:29
【问题描述】：

我在 Scopus 上使用高级搜索将文章范围缩小到适合特定主题的文章；搜索返回 24,609 个文档。我希望将所有文章下载为 XML，然后使用 'tm' R 包进行文本挖掘，以进一步减少论文数量。

我在尝试使用 R 中的 Scopus API 下载 XML 文件时遇到了问题。理想情况下，我想以某种方式通过 Scopus API 使用 rscopus 包从我的搜索中下载所有 24,609 个 XML。这是我用来尝试下载一篇文章的一些代码：

api_key = get_api_key(NULL, error = FALSE)

if (!is.null(api_key)){
  x = article_retrieval("2-s2.0-50949114517", identifier = "eid",
                        verbose = FALSE, view = "FULL")
  gen = x$content$`full-text-retrieval-response`
  ot = gen$originalText
} else {
  x = article_retrieval("2-s2.0-50949114517",
                        identifier = "eid",
                        api_key_error = FALSE)

这会返回“找不到资源”的错误。我也尝试过使用 DOI 的这种方法，但也失败了。

虽然此代码只能找到一篇文章，但有没有办法使用 rscopus 包从一次搜索中下载所有文章？我对如何使用包运行它有点迷茫。我可以下载所有文章的 CSV 文件中的引文信息，其中包括 EID 和 DOI 列，因此可以将文章检索功能应用于该列。

使用 R 版本 3.5.1，Mac OS X 10.13.6

【问题讨论】：

标签： r api scopus

【解决方案1】：

GitHub上有一个脚本

https://github.com/ElsevierDev/get_sd_oa

识别 ScienceDirect 中的所有 OpenAccess 文章，并将其 URI 存储在文本文件中。

该脚本包含一些循环通过 ISSN 的逻辑。您也许可以采用该脚本并对其进行调整以满足您的需求。

【讨论】：