【问题标题】:How to automatically identify citations of the same paper?如何自动识别同一篇论文的引用?
【发布时间】:2018-07-03 16:56:51
【问题描述】:

考虑 3 种方式来引用同一篇论文:

cite1 = "Yoshua Bengio, Réjean Ducharme, Pascal Vincent and Christian Jauvin, A Neural Probabilistic Language Model (2003), in: Journal of Machine Learning Research, 3(1137--1155)"

cite2 = "Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Jauvin. (2003) A Neural Probabilistic Language Model"

cite3 = "Bengio Y, Ducharme R, Vincent P, Jauvin C. (2003) A Neural Probabilistic Language Model"

自动识别同一论文的引用的一种简单方法是使用 Python 标准库中的 difflib 模块计算这些引用的相似度:

from difflib import SequenceMatcher as smatch
def similar(x, y): return smatch(None, x.strip(), y.strip()).ratio()

similar(cite1, cite2)    # 0.721
similar(cite1, cite3)    # 0.553
similar(cite2, cite3)    # 0.802

不幸的是,相似度指标的范围从 0.553 到 0.802,因此不清楚应该设置什么阈值。如果阈值太低,那么不同论文的引用可能会被误认为是同一篇论文。但是如果阈值太高,我们就会错过一些引用。

有更好的解决方案吗?

【问题讨论】:

    标签: python string-comparison similarity citations


    【解决方案1】:

    重要的是要考虑引文的独特之处是什么?

    根据您的示例,作者、文章标题和发表年份的组合似乎构成了独特的引用。

    这意味着您可以解析名称,然后比较它们的接近程度(因为第三个示例列出的名称不同)。解析标题,它应该匹配 100%。解析年份,也应该是100%匹配。

    【讨论】:

      【解决方案2】:

      除了神经网络和 NLP,这将是一种相当复杂的方法,我会通过预处理数据来解决这个问题。

      你可以做的几件事:

      - Create Short names Yoshua Bengio => Bengio Y
      - Normalize the names: Réjean Ducharme -> rejean ducharme
      - Extract author part of the string, title part of the string, and the "leftovers". Calculate similarity for each of the parts and average the result.
      - Extract the year of the publication and make it a three variable problem.
      - Use additional metadata if available (paper field, citation index, etc.
      

      如果您的问题仅限于这三种参考书目类型,则上述方法有效。

      如果您在参考书目中存在较大差异(即将其应用于整个 springer/ieee 数据库),您应该研究机器学习方法。

      虽然我无法在脑海中建议一个正确的模型,但我记得 this 论文与您的问题很接近。

      在其他方法中,如果您有大量的书目数据集,您可以尝试半监督方法,例如 word2vec/node2vec 或 kmeans,看看后续的相似度得分是否对您来说足够准确。

      忠告。

      • 在某些情况下,来自同一个研究团队的论文名称非常相似,或者当长名称不同时短名称相同 W. Xu 可以是 Wang XuWei Xu 都转录为 @987654325 @.

      • 在其他情况下,您有相同的作者,但名称不同 Réjean DucharmeRejean Ducharme

      • 论文标题可以有变化:Conference of awesome discoveriesAwesome discoveries, conference of

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2023-04-01
        • 2015-05-15
        • 2011-10-24
        • 1970-01-01
        相关资源
        最近更新 更多