Spark 或其他技术中的混合效果模型答案

【问题标题】：Mixed Effects Models in Spark or other technologySpark 或其他技术中的混合效果模型
【发布时间】：2017-02-08 23:46:30
【问题描述】：

是否可以在 Spark 中运行混合效应回归模型？（就像我们可以在 R 中使用 lme4、在 Julia 中使用 MixedModels 或在 Python 中使用 Statsmodels MixedLM）。
任何例子都会很棒。

我读过有一个 GLMix 函数，但我不知道用户是否可以直接使用它来拟合模型并获取系数和 p 值，或者它是否只能由机器学习库在内部使用。

我想迁移到 Spark，因为我的数据集比内存大得多。

是否有任何其他通用数据库或框架能够执行类似从磁盘流式传输数据的操作？
我只看到一些能够进行简单的线性回归。

问候

【问题讨论】：

标签： apache-spark regression mixed-models

【解决方案1】：

是的，Spark 绝对可以做到这一点。

我首先要研究的是一个相当流行的库，称为 ML Lib。我不确定它是否完全符合您需要的模型，但绝对不仅仅是“简单线性回归”。

另一个我不熟悉的库'linkedin/photon-ml' 明确提到了混合效应模型。

以下是使用广义加性混合效果驱动程序的示例：

spark-submit \
  --class com.linkedin.photon.ml.cli.game.GameTrainingDriver \
  --master local[*] \
  --num-executors 4 \
  --driver-memory 1G \
  --executor-memory 1G \
  "./build/photon-all_2.10/libs/photon-all_2.10-1.0.0.jar" \
  --input-data-directories "./a1a/train/" \
  --validation-data-directories "./a1a/test/" \
  --root-output-directory "out" \
  --feature-shard-configurations "name=globalShard,feature.bags=features" \
  --coordinate-configurations "name=global,feature.shard=globalShard,min.partitions=4,optimizer=LBFGS,tolerance=1.0E-6,max.iter=50,regularization=L2,reg.weights=0.1|1|10|100" \
  --coordinate-update-sequence "global" \
  --coordinate-descent-iterations 1 \
  --training-task "LOGISTIC_REGRESSION"

【讨论】：

ML Lib 不支持混合效果模型，仅支持基本 GLM，具有 L2 惩罚（以及用于线性和逻辑回归 AFAIK 的 L1 和弹性网络）