【问题标题】:How to retrieve/calculate citation counts and/or citation indices from a list of authors?如何从作者列表中检索/计算引文计数和/或引文索引?
【发布时间】:2012-05-10 14:50:13
【问题描述】:

我有一个作者列表。 我希望自动检索/计算每位作者的(理想情况下每年)引文索引(h-index、m-quotient、g-index、HCP 指标或...)。

Author Year Index
first  2000   1
first  2001   2
first  2002   3

我可以根据每位研究人员每篇论文的引用次数计算出所有这些指标。

Author Paper Year Citation_count
first    1    2000   1
first    2    2000   2
first    3    2002   3

尽管我努力了,我还没有找到能够做到这一点的 API/scraping 方法。

我的机构可以使用许多服务,包括 Web of Science。

【问题讨论】:

  • bmb-common.blogspot.ca/2011/11/google-scholar-still-sucks.html 有一些信息——特别是,如果您可以访问 Scopus,CITAN 包看起来非常强大;最近在 r-bloggers 上也有一些 PubMed 抓取帖子(这是否适合您,取决于您是否对您所在领域的 PubMed 报道感到满意)。即使您可以抓取 WoS,他们的服务条款也不允许这样做......
  • @Ben Bolker,感谢您的建议,这确实为我指明了正确的方向。
  • 所有有用的信息,感谢您的挖掘(如果您将这些点点滴滴的答案放在一起,最好将其发布在这里作为您问题的答案)。仍然受到数据源(例如 PubMed)的很大限制,但事情正在以有用的方式发展。
  • 这些很好,但请注意,它们与 Google 学者 引文 相关联——也就是说,您可以在页面中使用自己的引文报告而不是通用搜索(我认为)

标签: r api web-scraping citations


【解决方案1】:

实际上主要问题是构建citation graph。一旦你有了它,你就可以计算任何你想要的指标(例如h-indexg-indexPageRank)。

假设您有一组论文(您以某种方式检索到),您可以从每篇论文中提取引文并构建引文图。您可能会发现有用的 ParsCit, an open-source CRF Reference String and Logical Document Structure Parsing Package 也被 CiteSeerX 使用并且效果很好。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-10-14
    • 1970-01-01
    • 2021-04-09
    • 1970-01-01
    • 2020-04-13
    • 2014-12-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多