【问题标题】:pull the citations for a paper from google scholar using R使用 R 从谷歌学者中提取一篇论文的引用
【发布时间】:2015-05-15 18:27:45
【问题描述】:

使用 google-scholar 和 R,我想知道谁在引用某篇论文。

现有的软件包(如scholar)面向 H 指数分析:研究人员的统计数据。

我想提供一份目标文件作为输入。一个示例网址是:

https://scholar.google.co.uk/scholar?oi=bibs&hl=en&cites=12939847369066114508

然后 R 应该为论文抓取这些引文页面(谷歌学者对这些页面进行分页),返回一系列引用目标的论文(最多 500 次或更多引用)。然后我们会在标题中搜索关键词,列出期刊和施引作者等。

关于如何做到这一点的任何线索?还是归结为从字面上刮掉每一页? (我可以通过复制和粘贴来完成一次性操作)。

看起来这应该是一个普遍有用的功能,比如播种系统评论,所以有人将它添加到包中可能会增加他们的 H :-)

【问题讨论】:

  • This post 关于 Google 的 ToS 可能是相关的。
  • 也许你可以考虑在 web of science 上搜索论文。您可以下载最多 500 个搜索结果。然后在 R 中处理它们。获得一些灵感:jameskeirstead.ca/blog/…
  • 谢谢@jbaums 你是对的。与现有软件包保持一致,这种使用量将很小。
  • 谢谢@KvasirEnDevenir 想留在美妙的谷歌学术系统中,这样没有WoS订阅的人也可以使用

标签: r web-scraping google-scholar


【解决方案1】:

或者,您可以使用第三方解决方案,例如 SerpApi。这是一个免费试用的付费 API。我们为您处理代理、解决验证码并解析所有丰富的结构化数据。

示例 python 代码(其他库中也有):

from serpapi import GoogleSearch

params = {
  "api_key": "secret_api_key",
  "engine": "google_scholar",
  "hl": "en",
  "cites": "12939847369066114508"
}

search = GoogleSearch(params)
results = search.get_dict()

示例 JSON 输出:

{
  "position": 1,
  "title": "Lavaan: An R package for structural equation modeling and more. Version 0.5–12 (BETA)",
  "result_id": "HYlMgouq9VcJ",
  "type": "Pdf",
  "link": "https://users.ugent.be/~yrosseel/lavaan/lavaanIntroduction.pdf",
  "snippet": "Abstract In this document, we illustrate the use of lavaan by providing several examples. If you are new to lavaan, this is the first document to read … 3.1 Entering the model syntax as a string literal … 3.2 Reading the model syntax from an external file …",
  "publication_info": {
    "summary": "Y Rosseel - Journal of statistical software, 2012 - users.ugent.be",
    "authors": [
      {
        "name": "Y Rosseel",
        "link": "https://scholar.google.com/citations?user=0R_YqcMAAAAJ&hl=en&oi=sra",
        "serpapi_scholar_link": "https://serpapi.com/search.json?author_id=0R_YqcMAAAAJ&engine=google_scholar_author&hl=en",
        "author_id": "0R_YqcMAAAAJ"
      }
    ]
  },
  "resources": [
    {
      "title": "ugent.be",
      "file_format": "PDF",
      "link": "https://users.ugent.be/~yrosseel/lavaan/lavaanIntroduction.pdf"
    }
  ],
  "inline_links": {
    "serpapi_cite_link": "https://serpapi.com/search.json?engine=google_scholar_cite&q=HYlMgouq9VcJ",
    "cited_by": {
      "total": 10913,
      "link": "https://scholar.google.com/scholar?cites=6338159566757071133&as_sdt=2005&sciodt=0,5&hl=en",
      "cites_id": "6338159566757071133",
      "serpapi_scholar_link": "https://serpapi.com/search.json?as_sdt=2005&cites=6338159566757071133&engine=google_scholar&hl=en"
    },
    "related_pages_link": "https://scholar.google.com/scholar?q=related:HYlMgouq9VcJ:scholar.google.com/&scioq=&hl=en&as_sdt=2005&sciodt=0,5",
    "versions": {
      "total": 27,
      "link": "https://scholar.google.com/scholar?cluster=6338159566757071133&hl=en&as_sdt=2005&sciodt=0,5",
      "cluster_id": "6338159566757071133",
      "serpapi_scholar_link": "https://serpapi.com/search.json?as_sdt=2005&cluster=6338159566757071133&engine=google_scholar&hl=en"
    },
    "cached_page_link": "https://scholar.googleusercontent.com/scholar?q=cache:HYlMgouq9VcJ:scholar.google.com/&hl=en&as_sdt=2005&sciodt=0,5"
  }
},
...

查看documentation了解更多详情。

免责声明:我在 SerpApi 工作。

【讨论】:

    【解决方案2】:

    虽然有很多可用的Google's API,但基于谷歌学者的 API 不可用。所以,虽然谷歌学术页面上的网络爬虫可能不难开发,但我不知道它在多大程度上可能是非法的。检查this

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多