Increasing trend of scientists to switch between topics论文翻译

科学家们越来越倾向于在话题之间转换（2019）

摘要：
尽管科学家们在不同的职业生涯阶段一直在努力理解他们的创造力，但对于推动创新的研究主题转换的潜在动力却知之甚少。在这里，我们分析个别科学家的发表记录，旨在量化他们的话题转换动力学及其影响。我们发现，科学家论文的共引网络呈现出一个清晰的社区结构，每个主要社区代表一个研究主题。我们的分析表明，科学家的研究主题分布很窄。然而，现在的研究人员比早期更频繁地在不同的话题之间切换。我们还发现，在早期职业生涯中，较高的转换概率与低的总体生产率相关，而在后期职业生涯中，则与高的总体生产率相关。有趣的是，在所有的职业生涯阶段，每份论文的平均引用率都与转换概率呈负相关。我们提出了一个能解释主要观测特征的模型。

正文：
揭示科学家个体的研究活动及其随时间演变的机制，对于理解和管理从科学家培训到新知识的集体发现等一系列科学问题至关重要。捕获研究活动的大型数据集的可用性增加，为利用最先进的数学和计算工具探索科学生产和奖励的动态模式创造了前所未有的机会。除了早期旨在通过科学家的引文、h指数和相关变量评估科学影响的工作外，最近还有一批研究集中于量化和建模科学家职业生涯中研究创造力的演变。以论文数量衡量的科学家的累积产量显示出随时间的持续增长，这与众所周知的马太效应有关。通过将每一篇论文与其引文联系起来，我们发现科学家最有影响力的作品在其论文序列中随机出现。一项后续研究表明，科学家的职业生涯可能会涉及一个热点时期，在此期间，一个人的表现远远高于她的典型表现。其他问题，如科学家的创造力，声誉，社会关系的演变，以及他们职业生涯中的流动性也被调查过。

科学研究的一个基本动力是科学家研究兴趣的演变5，这反映在科学家随着时间的推移在不同的研究课题之间的转换。科学社会学家一直致力于从质量上理解科学家的选题原则，并指出这可能是保守生产和风险创新之间权衡的结果。社会学家也提出了丰富的说明性模型来对科学家们采用的研究策略进行分类22。近年来，随着科学出版资料的日益丰富，选题问题开始被定量分析。具体来说，各种基于语言的主题模型已经被提出来检测科学家23、24的研究领域。经验上也显示，科学资助可能会增加对资助领域的兴趣25。最近的一项研究指出，个体物理学家的研究兴趣可能会从职业生涯的开始到结束发生重大转变，兴趣之间的距离是根据物理学26中的场分类码来测量的。然而，关于个体职业生涯中话题转换的变化，目前还没有人研究过，在这里，我们要问：如何识别个体科学家所涉及的话题？科学家在不同的研究课题之间转换的频率是多少？如果科学家们更频繁地在不同的话题之间切换，他们的影响力是否会提高？在过去的一个世纪里，科学家的话题转换行为是否发生了变化？

为了解决这些问题，我们为每一位科学家建立了一个网络来描述他们论文之间的关系。这个网络的结构将立即揭示一个科学家的研究兴趣是如何体现的。这一框架使我们能够运用社区分析的方法，具体说明科学家的各种研究兴趣，并据此研究科学家研究兴趣转移的详细动态，以及上个世纪科学家研究兴趣转移趋势的演变及其与研究影响。本文的分析主要基于物理学家和计算机科学家。然而，我们的方法是通用的，并且不局限于领域分类码的可用性，因此它可以应用于分析任何学科的科学家。

结论：

共同引用个别科学家的网络及其结构特性。本文分析了美国物理学会（APS）期刊的科学出版数据。参考文献13中提供的不含糊的作者姓名数据用于将每一篇论文分配给其作者，从而产生236884名不同科学家的发表记录（关于该数据的基本统计，请参见补充图1）。为了研究单个科学家的论文之间的关系，我们为每个科学家构建了一个联合引用网络（CCN），其中每个节点都是该科学家撰写的论文，如果两篇论文共享至少一个参考文献，则将它们连接起来。在科学计量学27、28中，这种基于节点（论文）的共同邻域构建节点（论文）之间链接的方法被称为书目耦合，并被广泛应用于分析各种其他实际系统，如国际贸易系统29和在线社交系统30。每个社区科学家的引用网络与快速展开算法相结合，该算法通过最大化模块化函数31来检测社团。通常，一个网络包含几个大型社区，以及一些小型集群和独立节点。主要群体代表了这位科学家的主要研究课题。因为网络规模需要很大，为了确保有意义的社区检测结果，我们在本研究中考虑了所有在APS期刊上发表了至少50篇论文的科学家（3420名科学家，关于他们职业生涯开始年份的分布，见补充图2）。论文较少的科学家（至少20篇论文，15373名科学家）的结果相似，并在补充图中报告。17岁和18岁。此外，我们还研究了加权共引网络中检测到的社区，其中的链接根据共享引用的数量进行加权。群落结构没有明显改变，因为较大的权重往往位于群落内的链路上（参见补充图3）。我们的社区分析也使用了一个带有可调分辨率参数的改进模块化函数（参见补充图。19，20）和来自计算机科学的另一个数据集（参见补充图。23-25）和所有测试的主要结论都是相似的。
Increasing trend of scientists to switch between topics论文翻译

图1给出了一位典型的被高度引用的科学家的CCN图。图1c中的社区连接矩阵表示每个社区内的节点连接良好，但是社区之间的节点连接较少。图1d所示的时间序列描述了网络的发展历史，并揭示了这位科学家是如何从一项研究中走出来的，在他职业生涯中的另一个话题。在时间序列中，每个点都是一张纸，不同的颜色代表共引网络中不同的群体。点的高度是纸张在网络中的链接数。

图1典型被高度引用科学家的共同引用网络（CCN）及其成长历史的图解。共引网的数据和方法。这位科学家写的论文用绿色标记，这些论文的参考文献用红色标记。b共同引文网由这位科学家发表的所有论文组成。每篇论文由一个节点表示，如果两篇论文共享至少一个参考文献，则它们是相连的。采用快速展开算法对网络中的社区进行识别，该算法通过最大化模块化函数来检测社区。该网络包含几个大型社区，以及一些小型集群和孤立节点。每一个主要群体都代表着这位科学家的一个主要研究课题。c社区连接矩阵表明，每个社区内的节点连接良好，但不同社区的节点连接较少。这里，两个社区之间的连接性计算为它们之间的实际链接数超过它们之间可能的最大链接数。d下面的时间序列描述了网络的发展历史，同时揭示了这位科学家在其职业生涯中是如何从一个研究课题转移到另一个研究课题的。在时间序列的子图中，每个点都是一张纸，颜色对应于共引网络中的社区。点的高度是纸张在网络中的链接数（即连接性）。

我们首先关注共引网络的结构性质。对于每个科学家的CCN，我们计算其巨组分（GC）的大小，并研究其与网络大小的相关性，如图2a中的散点图所示。可以看到，大多数点位于对角线附近，表明ccn通常连接良好并且具有相对较大的gc（关于与网络的结果，也包括共同引用关系，参见补充图4）。这也可以在插图中看到，在图中可以观察到GC相对大小的显著右偏分布。图1c表明CCN具有社区结构。作为对这一现象的统计支持，我们在图2b中绘制了最大化模块化、Q实部、真实CCNS和最大化模块化、Q RAND，在它们的程度上保留了重新调整的对应。对于每一个科学家的ccn，我们生成了100个随机对应物，并且通过对这些对应物的最大化模块化进行平均来获得Q RAND。图2b中的所有点都位于对角线下，表示Q rand小于Q real。为了测量Q实数和Q rand之间差异的显著性，我们对每个科学家的CCN及其随机对应者的模块性进行了单样本t检验。所有获得的p值均显著小于0.01，表明ccn的模块性显著大于其随机对应物（参见补充图5中Q real和Q rand之间的显著差异的图示鉴于论文倾向于在CCN中聚集成社区，一个有趣的问题是科学家拥有的社区的典型数量是多少。图2c显示了所有科学家的群落数量分布。社区的数量似乎分布广泛。然而，由于ccn可能由孤立的节点或非常小的集群组成，我们使用一个阈值来消除那些太小而不能被视为研究人员研究领域的社区。经过过滤后，科学家的群落数量分布变得非常窄，如果只考虑大于2和5的群落，则在4和3左右达到峰值。在下面的分析中，我们将主要社区定义为两个以上的节点。为了更好地了解CCNs中的社区规模，我们在图2d中显示了每个社区中按大小降序排序的论文的分数。曲线的强衰减表明社区构成了大部分节点。对几个最大社区中节点部分的逆累积概率的进一步研究表明，对于一半的科学家来说，三个最大社区包含了他们论文的70%以上，如图2e所示。

Increasing trend of scientists to switch between topics论文翻译

图2共引网络的结构特性。a共同引用网络（CCN）的大小与CCN的巨大组件（GC）的大小的比较。每一点代表一个科学家。大多数点位于对角线下方，但靠近对角线，这表明ccn通常是连通的，gc相对较大。这一点得到了插图的支持，插图中给出了GC相对大小的分布。

b最大化模块化在真实CCNs（Q实）和最大化模块化在其程度上保留重新洗牌同行（Q RAND）。所有的点都位于对角线之下，这表明真实网络中的社区结构是非常重要的。

所有科学家的群落数量分布。显示了三条曲线，其中考虑了所有社区（图例为所有社区），消除了节点数小于3的小社区（图例为大小>2），并消除了节点数小于6的小社区（图例为大小>5）。

不同社区的论文分数。e最大社区（图例为前1）、最大社区（图例为前2）和最大社区（图例为前3）中的节点分数的反向累积概率。不同社区PACS码分布的基尼系数。社区按大小按降序排列。较大的基尼系数对应于更异质的分布，这表明社区中较高比例的论文共享相同的PACS代码。将真实数据与随机对应的数据进行比较，其中PACS代码在保存社区结构的同时在每个科学家的论文中重新排列。此图中的误差线表示标准偏差。

在每个CCN中，一个主要社区包含拓扑上彼此接近的论文。为了验证一个社区中的论文是否确实在类似的研究课题32、33中，我们分析了属于同一个社区的论文的PACS代码（物理学中的字段分类代码）。我们在图2f中显示了PACS码在不同社区中分布的基尼系数34。较大的基尼系数对应于社区中PACS码的更异构分布。将真实数据与随机对应的数据进行比较，其中PACS代码在保存社区结构的同时在每个科学家的论文中重新排列。在相应的基尼系数分布的Kolmogorov-Smirnov检验中，我们发现真实数据中的平均基尼系数高于随机数据中的平均基尼系数，且p值小于0.01。因此，我们的研究结果表明，一个社区中的论文倾向于共享相同的PACS代码，并且检测到的社区反映了科学家不同的研究领域

**开关概率的演化及其影响。**一旦检测到的群落被标记在时间序列中（图1d），科学家对不同研究主题的兴趣动态就可以被调查。为此，我们首先在图3a中显示，每个科学家每年参与的主要社区的平均数量。可以看出，科学家在早期的职业生涯中，往往参与到少数社区中。然后，每年参与社区的数量增加，直到职业生涯的第20年左右达到顶峰，然后逐渐减少。然而，当一个科学家在一年内发表更多的论文时，她可能会有更多的年度参与社区纯粹是偶然的。为了消除这种影响（参见补充图6），我们提出了另一个称为转换概率的度量，它计算科学家在两个相邻出版物之间从一个主要社区转换到另一个主要社区的概率。图3b显示了平均切换概率的演变，在不同的职业生涯中。转换概率的峰值也出现在职业生涯的第20年左右，这表明科学家在职业生涯的早期转换较少，而在职业生涯的后期转换较多。为了进一步消除职业生涯中不同的生产力强度，我们在图3b的插图中显示了平均转换概率作为职业生涯中发表论文数量的函数。研究发现，职业生涯后期转换概率的衰减更不明显，形成了转换概率的上升和下降模式。这些结果表明，科学家并没有遵循最佳的觅食行为35，即在开始时进行探索，然后在结束时变得更具剥削性。科学家的转换行为可能是由其他因素驱动的。具体地说，科学家们的目标可能是在早期职业生涯中尽量减少失败的可能性，因此他们在这一时期的转变较少。然后他们在以后的职业生涯中更频繁地换工作，从而变得更危险。

我们进一步问，增加交换是否有助于研究绩效？为此，我们研究了开关概率与研究性能之间的关系。在这里，我们使用两个几乎不相关的指标来衡量科学家的研究绩效（参见补充图7），即发表论文的数量和每篇论文的平均引用率。与参考文献13一致，我们只考虑论文发表10年后的引用次数，即C 10。我们首先在图3c中比较了不同职业生涯中10%最有生产力的科学家的总体转换概率和转换概率。我们意外地发现了两种相反的行为。在职业生涯早期（<12y），高的整体生产力与低的转换概率相关，而在职业生涯后期，高的生产力与高的转换概率相关。这种模式仍然存在，如果我们删除那些低引用从生产科学家（见补充图8）。导致这种模式的原因可能有多种。在早期职业生涯中，导致生产力和转换概率之间负相关的一个可能原因是科学家经常转换话题，因为研究领域不有趣，或者很难在其中做任何有成效的事情。此外，在图3d中，我们比较了平均每篇论文被引用率最高的10%科学家的总体转换概率和转换概率。该图显示，在所有职业生涯中，每份论文的高平均引用率与低转换概率相关。这一有趣的发现可能是因为较高的转换概率降低了某一特定领域领导的印象，从而产生较少的引用。这一结果得到了另一项测试的支持，在这项测试中，转换概率被发现与每篇论文的平均引用率呈负相关，特别是对于有生产力的科学家（见补充图9）。为了检验这些发现的意义，我们对每个职业生涯年度的转换概率分布进行了Kolmogorov-Smirnov检验。图3c、d的插图中所示的小p值（大多<0.05）表明，在每一职业年中，总体（总人口）转换概率确实遵循两个科学家亚组（即，每篇论文10%的生产力和10%的高引用率）的不同分布。我们还研究了每篇论文中2%和5%的科学家最有效率和最高引用率的结果（参见补充图10），并且在计算百分位数时，我们根据PACS代码控制主题区域（参见补充图11）。观察到的模式与图3c，d所示的模式一致。我们还计算了科学家在不同职业年的转换概率与其总体表现（生产力或每篇论文的平均引用率）之间的皮尔逊相关。补充图12所示的相关性也高度支持图3c、d所示的结果。
Increasing trend of scientists to switch between topics论文翻译

图3年相关群落的演化和转换概率。a不同职业年的科学家个人每年参与主要社区的平均数量。b两个相邻出版物在不同职业生涯中从一个主要社区到另一个主要科学家社区的转换概率。插图显示了转换概率与职业生涯中发表的论文数量的函数关系。总转换概率（所有科学家）与10%不同职业年最有生产力的科学家的转换概率的比较。研究结果表明，高生产率与职业生涯早期的低转换概率有关，但与职业生涯后期的高转换概率有关。d总转换概率（所有科学家）与平均每篇论文引用率最高的10%科学家的转换概率的比较。对于每一篇论文，我们只考虑其发表10年后的引用次数（c 10）13。结果表明，在所有职业生涯中，高平均每篇论文的被引率与低转换概率相关。在（c，d）的插图中，我们给出了Kolmogorov-Smirnov检验的p值，该检验区分了职业生涯中的两种切换概率分布

接下来，我们研究了近100年来，随着科学的发展，CCNs的结构和动力学性质是如何演变的。由于我们的数据在2010年结束，一些科学家的职业生涯还没有完成。因此，我们必须确定不同年份科学家的工作年限，以确保他们的ccn之间的公平比较。具体地说，我们只考虑科学家的第一年职业生涯，并删除（i）所有尚未达到y职业生涯年数和（ii）在职业生涯第一年发表论文少于30篇的人。在我们的分析中，我们给出了y=10，20，30的结果。我们首先选择在某一年开始职业生涯的科学家，并平均这些科学家参与职业生涯的主要社区的数量。我们在图4a中显示了在不同年份开始其职业生涯的科学家的平均社区数量。结果表明，随着科学的发展，科学家个体的主要群体数量几乎保持不变。CCN其他结构特性的演变如图13所示。我们进一步计算了每个科学家在其职业生涯中的平均转换概率，并相应地通过平均今年开始其职业生涯的所有科学家的转换概率来计算每年的平均转换概率。图4b中的结果令人惊讶地表明，尽管多年来社区的数量是稳定的，但在上个世纪，科学家倾向于增加社区之间的转换，即主题。更具体地说，早期的科学家倾向于在转换到另一个话题之前在一个话题上工作更长的时间。相反，现在的科学家们倾向于几乎同时研究多个主题，导致相邻出版物中社区之间的切换更加频繁。图4b中的误差线表示标准偏差。图4a、b中的大误差条是由于科学家在切换概率上的异质性造成的。为了进一步支持切换概率的增加趋势，我们在补充图14中计算切换概率的标准误差，其估计样本平均值中的误差相对于真实平均值的标准偏差。在补充图14中发现平均值的小标准误差，表示这些平均值中的非常小的不确定度。

Increasing trend of scientists to switch between topics论文翻译

图4随着科学的发展，群落数量和转换概率的变化趋势。科学家群体的平均数量，他们在不同的年代开始了他们的职业生涯。b不同年份开始职业生涯的科学家的平均转换概率。这里的误差线表示标准偏差。随着我们的数据在2010年结束，它无法捕捉到近几年开始职业生涯的科学家的全部职业生涯。因此，当我们在这里研究科学的进化时，我们过滤掉了一些科学家。我们只考虑科学家的第一年职业生涯，并删除（i）所有尚未达到y年职业生涯的科学家（为了公平的时间比较），以及（ii）那些在第一年职业生涯中发表的论文少于30篇的科学家（为了有意义的社区检测）。图中给出了y=10、20、30的结果。随着科学的发展（在这几年中），每个科学家所拥有的主要群体的数量几乎保持不变，而科学家在群体之间切换的频率在这几年中增加。c在1940年至1950年期间开始工作的科学家和在1970年至1980年期间开始工作的科学家的社区数量分布（y=30）。Kolmogorov-Smirnov检验的p值为0.961，表明这两个分布之间有显著的相似性。d 1940年至1950年开始工作的科学家和1970年至1980年开始工作的科学家的转换概率分布（y=30）。Kolmogorov-Smirnov检验的p值为2.34×10-8，表明这两种分布之间存在显著差异（即开关概率增加）

然后，我们通过直接研究两组科学家的群落数量和交换概率的分布来检验我们观察到的趋势的重要性。第一组包括1950年至1960年开始工作的科学家，第二组包括1970年至1980年开始工作的科学家。图4c显示，这两组科学家的群落数量分布基本重叠。然而，图4d中这两组科学家的开关概率分布显示出显著的差异。此外，我们还考虑了在接下来的10年中开始职业生涯的科学家，例如1940-1950年、1950-1960年、1960-1970年和1970-1980年。我们进行了Kolmogorov-Smirnov检验，检验了科学家群体数量的分布，以及科学家转换概率的分布。如补充表1所示，在比较不同年份科学家群落数量分布时，p值均大于0.2，支持这些数据遵循相似分布的假设。然而，当比较不同年份科学家的转换概率分布时，p值都小于0.04，表明这些分布之间存在显著差异。

为了支持上述实证结果，我们进行了各种额外的测试。首先，为了消除这些年来论文和科学家数量不断增加的影响，我们构建了一个空模型，在这个模型中，我们为每个科学家保存已发表的论文，但我们重新调整了这些论文的时间顺序。因此，在每个科学家的CCN中检测到的社区保持不变，而他/她的职业转换概率将改变。我们发现这个零模型中的平均切换概率多年来是稳定的（参见补充图15），这表明实际数据中切换概率的增加趋势并不是由论文和科学家数量的增加引起的。其次，我们测试了我们的发现是否和在多大程度上受到合作效应的影响。在多作者论文的情况下，我们使用集体信用分配方法36在作者之间分配论文影响。我们过滤掉科学家的论文，其中科学家的信用份额低于一定的价值。在过滤掉这些论文之后，我们发现在科学家的个体和集体转换模式上没有质的差异（参见补充图16），这表明我们的发现对合著效应是稳健的。此外，我们还使用另外两种方法检查了APS数据。第一种是社区检测算法，称为FICOMAP 37，它独立于模块化最大化。我们选择这种方法，因为它的分辨率极限被发现是小于模块化最大化38的数量级。第二种方法是基于PACS代码，这是APS从1985年到2015年实施的归档分类代码。我们选择这种方法是因为它完全独立于社区检测。通常，一篇论文可能有几个PACS代码（通常是3个）。在这里，我们选择主要PACS代码的前四位（论文中的第一个PACS代码）来标识论文的字段（主题）。虽然第一种方法适用于上述所有科学家，但第二种方法仅限于1985年后在APS上发表第一篇论文的科学家。在补充图中，分别总结了基于Infomap和PACS码的详细结果。21和22，表现出与模块化最大化所揭示的相同的模式。

开发-勘探模式。最后，我们提出了一个模型，可以帮助理解导致科学家研究动态的观察模式的主要机制。科学家的研究活动可以模拟为知识空间中的发现过程（即表征不同知识之间联系的网络）4,39。科学家发表论文时，会**知识空间中的一个节点（即新知识）。这位科学家在其职业生涯中**的子网络形成了一个个人网络，记录了她所有的论文以及它们之间的联系，即它们之间的关系。节点**过程的最简单模型是标准随机游走模型（RWM），假设科学家随机**前一个**节点的相邻节点。在这里，通过在随机游动模型中引入一个开发过程（由概率p控制）和一个勘探过程（由概率q控制），我们提出了一个开发-勘探模型（EEM）。这两个过程都被指出是各种自适应系统创新的基础40。在我们的模型中，这两个过程是按顺序执行的。在每一步中，科学家不必总是从最后一个**的节点开始，而是有可能从先前**的节点中随机重新启动（重新利用）。一旦确定了重新利用的节点，科学家就有概率q来探索最近邻居以外的节点（为了简单起见，是下一个最近邻居）。注意，当p=0和q=0时，EEM减小到RWM。关于RWM和EEM的说明性演示，请参见图5a。在我们的模拟中，知识空间被表示为由所有ap论文组成的网络，如果它们共享至少一个参考，则任何两个节点（论文）被链接。每个科学家的第一个**节点被设置为她的第一篇论文。每个科学家的其余论文是通过跟踪APS网络上的EEM生成的，直到**节点的数量等于每个科学家的论文的实际数量。

我们首先通过模拟图1所示具有代表性的高引用科学家的研究动态来测试EEM。具体而言，我们在图5b中比较了共引网络（CCN）以及由RWM和EEM两者生成的已发表论文的时间序列。可以立即看到，应用RWM生成的网络与图1b中的典型真实网络非常不同，因为它包含许多长链，并且缺少不同的社区。而且，得到的时间序列，从图1d所示的典型真实研究者的角度来看，RWM与RWM也有很大的不同，因为每年都无法观察到群落之间的转换。相反，网络和由EEM生成的时间序列定性地再现了如图1所示的类似特性。通过检验由该模型产生的一些统计量，我们进一步定量地支持EEM。如图5c所示，第一个关系到不同p下每年参与的社区的数量，当p=0时，每个科学家大约每年只在一个社区工作。随着p值的增加，每年参与的群落数量增加，p=0.6在1.8左右达到峰值，这是真实数据中观察到的值。这里，q设置为0，因为它对每年参与的社区几乎没有影响。另一个统计数字是每个科学家在其职业生涯中参与的社区数量。当q=0时，生成的子网没有不同的群落，因此群落的数量分布非常窄（即使对于所有检测到的簇都被视为群落的大小大于0的情况），如图5d所示。随着q的增加，小群落开始出现，导致大小>0、大小>2和大小>5的分布分离。当q=0.2时，大小>0、大小>2和大小>5的分布分别在11、8和5左右达到峰值，与实际数据类似，见图2c。这里，另一个参数p被设置为0，因为它对社区数的分布几乎没有影响。我们还根据实际数据估算了每位科学家的概率p和q（见方法部分）。由实际数据估计的p和q的分布分别如图5e、f所示。我们可以看到，p和q的分布分别在0.6和0.2附近出现峰值，这是图5c、d中产生与实际数据一致的统计特性的值。

Increasing trend of scientists to switch between topics论文翻译

图5开采-勘探模型（EEM）的性能。EEM的图解。将研究活动建模为知识空间中的节点**过程。科学家发表论文时，会**知识空间中的一个节点（即新知识）。这个科学家在最后**的网络形成了她的个人网络，记录了她所有的论文以及它们之间的关系。底层的玩具网络是知识空间的演示，红色节点是科学家已经**的节点，数字记录了节点被**的步骤。节点**过程的最简单模型是标准随机游动，假设科学家随机**最后**节点的相邻节点。因此，红色节点4的一个相邻节点（用较大的绿色标记）将被随机地拾取和**。在EEM中，我们介绍了一个开发过程和一个勘探过程。利用概率p，科学家随机地重新探索一个先前**的节点的邻域。在图中，科学家通过跳回到红色节点1并随机**其一个邻居来进行开发。利用概率q，科学家探索了节点4最近邻居以外的节点。为了简单起见，我们假设科学家在探索步骤中随机**下一个最近的邻居。比较共引网络（CCN）和随机游走模型和EEM生成的论文发表时间序列。包括初始纸张和每年纸张数量的参数设置与图1相同。在（c，d）中，这些参数是所有分析过的作者的。c不同p的年参与群落数，q=0。d.每个科学家在其职业生涯中参与不同q.e，f的社区数量的分布根据实际数据估计每个科学家的概率和q，绘制为其概率密度函数

最后，我们在图6中研究了基于参数p=0.6和q=0.2的EEM生成的科学家ccn的其他结构统计。尽管存在一些数量上的差异，我们发现在图2中测量的这些结构量在实际数据和模型数据中在质量上是相似的。尤其是EEM生成的ccn具有良好的连通性和社区结构，社区中的论文共享相同的PACS代码。在群落中也发现了很强的规模异质性，这表明科学家在不同的主题中参与的比例不成比例。这些结果实际上可以从EEM的机制中预测。我们将科学家的研究活动建模为知识空间中的发现过程，知识空间表示为所有APS论文的共引网络。底层网络已经具有具有异构规模和有意义的主题表示的社区结构。EEM从这个完整的网络中抽取的子网络自然具有这些特性。EEM的主要贡献在于它捕获了导致在真实数据中观察到的主题切换行为的主要机制（即重启和跳远），包括高切换概率（切换回旧主题）和小的孤立社区（切换到非常不同的主题）。

Increasing trend of scientists to switch between topics论文翻译

图6基于EEM生成的科学家ccn的结构特性。a建模的联合引用网络（CCN）的大小与CCN的巨大组件（GC）的大小。每一点都代表一个模范科学家。B在建模的CCNS（Q模型）中最大化模块化和最大化的模块化程度保留了重新调整的对等体（Q RAND）。不同群落PACS编码分布的基尼系数。社区按大小按降序排列。将模型数据与随机对应的PACS代码进行比较。d真实数据和模型数据在不同社区中的论文分数。对于真实数据和模型数据，三个最大社区中节点分数的逆累积概率。F的最大分布在科学家的真实CCNs和建模CCNs。在这个图中，EEM的参数被选择为p=0.6和q=0.2，误差条代表标准偏差。

讨论：

总而言之，我们通过构建一个网络来研究科学家的研究动态，每个科学家的出版物描述了他们的共同引用关系。我们发现，通常每个网络似乎都有一个清晰的社区结构。社区中的论文往往共享相同的PACS代码，这表明每个社区确实代表一个研究领域。通过滤除<3个节点的小群落，我们得到了科学家的主要群落。我们发现主要科学家群体的数量分布很窄。此外，三个最大的社区已经占科学家论文的70%以上。我们比较了在不同年代开始工作的科学家ccn的统计特性。我们发现，虽然社区的总数几乎没有变化，但在过去的几年里，社区之间的转换往往会增加，而且变得更加频繁。此外，我们发现，在所有职业阶段，高平均每篇论文的引文与低转换概率相关。与之形成鲜明对比的是，早期职业的高转换概率与低总体生产率相关，而后期职业的高转换概率与高总体生产率相关。最后，我们提出了一个模型来捕捉科学家个体研究动态的主要特征。

在现有文献中，参考文献26对理解科学家在整个职业生涯中研究兴趣演化的宏观模式做出了重要的一步。参考文献26的关键发现是，基于PACS编码测量的科学家职业生涯最早和最后阶段之间的研究兴趣距离遵循指数分布。为了重现这一经验观察结果，提出了一个海滨漫步模型。我们的一些实证结果与参考文献26中的结论一致。然而，由于文献26中的分析集中在研究兴趣对科学家整个职业生涯的整体变化上，对于个人职业生涯中短期（逐篇）主题转换的微观动力学的了解仍然很少。本文的主要贡献是：（1）提出了一种基于社区检测方法的通用方法来分析微观话题转换动力学，（2）从经验上揭示了近100年来物理学发展过程中微观动力学在科学家职业生涯中的演变趋势，以及（3）建立了一个模型微观动力学中的话题转换行为

本文的主要发现之一是，在科学家的早期职业生涯中，频繁的话题转换可能会对其职业生涯的成功不利。因此，我们的研究结果建议资助者和决策者应该鼓励年轻科学家专注于他们当前的课题。例如，可以向年轻科学家提供更多的后续补助金，用于研究他们已经研究过的课题。另一种可能是引入对年轻科学家的长期绩效评估，以便他们能够在一个课题上投入更长的时间。我们的工作为将网络工具纳入个人出版记录的时间分析提供了一个通用框架。在这项工作的基础上可以进行一些有希望的扩展。一个简单的方法是应用我们的框架来分析更高层次的研究动态（例如，在部门或研究所），这将大大加深我们对研究活动是如何集体组织的理解。此外，还可以在合作或个人研究资助的支持下构建论文的ccn。因此，不仅可以根据生产力，而且可以根据科学家之间的实际研究方向和合作来评估研究补助金的结果。最后，我们指出，研究活动是一个复杂的行为，由多种因素驱动。尽管我们的模型很简单，但它捕获了许多基本属性。然而，我们注意到，在主题转换41之后，它可以通过结合奖励或强化信号等其他机制来捕捉科学研究的更真实的特征。

方法：

数据。本文分析了APS各期刊的出版数据。数据包含482566篇论文，从1893年到2010年不等。为了消除作者姓名的歧义，我们使用了Sinatra等人提供的作者姓名数据集。这是通过在APS数据13中的综合消歧处理获得的。最终，共有236884个不同的作者被匹配。我们发现并分析了3420位作者和至少50篇论文，15373位作者和至少20篇论文。我们在补充材料中分析的另一组数据是通过从在线网络数据库42中提取科学家概况而获得的计算机科学数据。数据包括1712433名作者和2092356篇论文，从1948年到2014年不等。此数据中的作者姓名已消除歧义。我们在这一数据中发现并分析了9818位作者和至少50篇论文。

社区检测。如果两篇论文共享至少一个参考文献，那么科学家的共同引文网络就是通过链接两篇论文而构建的。为了简单起见，我们不加权链接，只考虑网络的拓扑结构。采用基于模块化优化的启发式算法31检测网络的社区结构。本文考虑的模块化函数定义为：

Increasing trend of scientists to switch between topics论文翻译

其中i j是共引网络的邻接矩阵的元素，k i是节点i的度，m是网络中的链路总数，ci是节点i被分配到的社区，如果ci=cj，则δ函数δ（ci，cj）是1，否则为0。当函数Q最大化时，得到群落。注意，γ是Q 43,44中的分辨率参数，标准模块函数45中的γ=1。较大的γ能探测到较小但较多的群落，而较小的γ能产生较大但较少的群落。在补充材料中给出了γ≠1的结果。虽然群落数量的分布受参数γ的影响（参见补充图19），但动力学特性显示几乎与群落的分辨率无关（参见补充图20）。因此，本文考虑标准模块化函数，即γ=1。

由实际数据估计p和q。我们可以根据实际数据来估计每个科学家在电磁脉冲中的概率p和q。我们把一位科学家发表的论文数记为n。在我的论文序列中，如果一篇论文与我之前发表的任何一篇论文没有任何共同之处，则被认为是一种探索。我们将u i表示为i的这类论文的总数，那么q i可以很容易地估计为q i=u i/n i。在i的论文序列中，如果一篇论文与它之前的论文共享至少一个参考文献，则它被认为是非剥削性的。我们将v i表示为i的此类论文的总数。这样，我们可以将pi估计为pi=（n i-u i-v i）/（n i-u i）

报告摘要。有关研究设计的更多信息，请参阅与本文链接的自然研究报告摘要。

数据可用性。本文中使用的数据都是公开的。APS数据可通过https://journals.APS.org/datasets下载，计算机科学数据可通过https://www.aminer.cn/aminenetwork下载。本文的报告摘要作为补充信息文件提供。

代码可用性。社区检测代码见https://www.mathworks.com/matlabcentral/fileexchange/45867-community-detection-toolbox。在本研究中使用的所有其他代码可从相应的作者处获得，只要合理要求。

注意：这里的代码是MATLAB版本的！