A strategy to apply machine learning to small datasets in materials science

摘要：机器学习的方法在材料科学研究中的应用越来越广泛。然而，与其他领域相比，材料数据集通常更小，有时更为多样化，但材料数据集的大小对训练机器学习模型的影响还未有人进行研究，这阻碍了使用小样本的材料数据集建立高精度的机器学习模型。本文分析了材料数据的大小和机器学习模型的预测能力之间的基本相互作用。结果显示数据大小的影响不是直接影响模型的精度，而是通过影响模型的自由度（DoF），间接影响模型的预测精度，从而得出精度与DoF之间是有关联的。精度-自由度关联的出现意味着模型出现了欠拟合问题，并且模型的偏差较大，这限制了模型在未知数据区域的精确预测。因此，本文提出在特征空间中引入属性的粗估计，利用小尺寸材料数据建立ML模型，在不提高模型自由度的前提下提高预测精度。在预测二元半导体带隙、晶格热导率和沸石弹性性质的三个案例研究中，粗估计的引入有效地将机器学习模型的预测能力提升到了最新水平，证明了所提出的策略的通用性，从而使用小样本的材料数据集构建了比较精确的的机器学习模型。

1.简介：在过去的十几年中，机器学习在各学科和工业界都得到广泛的应用，在材料领域也得到广泛的应用。如：表征无机材料，预测基本性质，创造原子势能等。以上提到的成功案例均是在大数据集的背景下实现的，然而很多材料的数据集均是小样本的，这成为建立高精度机器学习模型的障碍。

通过对最近的几篇文献数据的分析发现，数据集的大小与预测误差(RMSE)存在显著关系，如下图：

由上图可知，随着数据集样本数的增加，误差显著减少。

为进一步证明以上结论，选取二元半导体的能带值（Eg）作为研究对象。使用手动选取的化学参数作为描述符，选择几种不同的机器学习模型作为对比，精度如下：

： A strategy to apply machine learning to small datasets in materials science

由上表可得，KRR的精度最高。

A strategy to apply machine learning to small datasets in materials science

a.由上图a为KRR方法中RMSE随数据集量变化的趋势，跟之前的总体趋势相同。即使数据集样本数增加到108（全部）,误差也在0.5左右（9.3%），且该预测值跟实验值的皮尔逊相关系数为0.93。该误差较大，难以接受。

为分析RMSE的误差来源，将误差分解为两部分：

A strategy to apply machine learning to small datasets in materials science

误差（1）为预测值跟真实值的偏差，误差（2）为预测值的方差。上述回归过程的误差(1)为0.26ev，误差（2）为0.06ev。误差（1）比误差（2）的四倍还大，表明所选的特征不足以很好的表示目标属性，即：欠拟合。为提高预测精度，可增加特征。

b.图b为KRR模型的自由度跟RMSE的关系图。由图可知，可以通过提高模型的自由度来减少误差（但模型自由度越高，越复杂，拟合难度更大）

模型自由度（DOF）：回归模型中非零系数的个数。

所以，综上，模型的精度，自由度均和数据集的大小有关。

为揭示自由度、精度、数据集大小三者之间的关系，对三者进行中间过程分析。如下：

A strategy to apply machine learning to small datasets in materials science

上图a为数据量和精度两者之间的关系。由图可知，在不加入DOF的影响之前，数据集大小对精度影响很大。在图b中加入了DOF的影响，可看出数据集大小对精度影响变小。但DOF跟RMSE也建立起很强的关联。所以，数据集大小可以通过改变模型的自由度，间接改变RMSE。

综上，为建立一个预测精度高的机器学习模型，一方面可以增加数据集的量(成本高)，来降低误差，另一方面可以在不显著提高模型自由度的前提下，增加新的特征，改变DOF，以降低误差。

选择特征的策略：（1）选择可以对目标特性进行表示的特征（如以往的经验公式），即使预测精度不高(粗估计), (2)特征值的获取成本低，或者低维。

CEP特征：定义CEP特征为对目标特性能进行粗估计或者获取该特征值的代价很低。满足以上的两个策略。

为论证在特征空间加入CEP特征的有效性，本文举了三个例子，此处仅对一个例子进行说明。

eg：预测二进制半导体的能带值Eg，使用GGA（一种计算方法）的计算值作为CEP特征加入特征空间。结果如下图：

A strategy to apply machine learning to small datasets in materials science

由上图可得，加入CEP特征后，RMSE显著下降。加入前:0.51ev，加入后：0.34ev。下降了33%

分析：首先不能将精度的提高归因于GGA特征值直接嫩很精确的确定Eg，因为如果只将GAA值作为特征进行回归，RMSE高达0.71ev。但对GAA和Eg做相关性分析可得相关系数为0.86。属于强相关。

虽然GGA未能直接准确的预测Eg，但GGA的加入将Eg限定在一个条件范围为空间。偏差的平方也从0.26下降到0.09。且加入GGA后DOF也从12下降到了9，没有以提高模型自由度为代价来获得高精度。

综上，在小样本数据集上建立高精度的机器学习模型时可通过加入粗估计的特征来限定拟合范围，从而提高模型精度。