【问题标题】:How to avoid the max. amount of input fields for JPMML如何避免最大值。 JPMML 的输入字段数量
【发布时间】:2019-07-23 22:56:11
【问题描述】:

我在 JPMML (scala) 中使用带有许多输入字段的 PMML 模型时遇到问题。在下面找到一个最小示例:加载一个 300x150 像素的图像并将其用作 PCA (python) 的输入:

img = PIL.Image.open(filename)
img = img.resize(STANDARD_SIZE) # 300x150
img = np.array([int(np.mean(a)) for a in img])

pca   = PCA(svd_solver=pca_method,n_components = components)
train = pca.fit_transform(train_x)

pipeline = PMMLPipeline(([('pca', pca), ('knn', neigh)]))
sklearn2pmml(pipeline, "/tmp/pca.pmml")

在第二步中,应使用 JPMML (scala) 加载此模型:

val evaluator = new LoadingModelEvaluatorBuilder()
      .setLocatable(false)
      .load(new File("/tmp/pca.pmml"))
      .build()
evaluator.verify()

这将导致非常明显的异常:

Exception in thread "main" org.jpmml.evaluator.InvalidElementException: Model has too many input fields
    at org.jpmml.evaluator.ModelEvaluatorBuilder.checkSchema(ModelEvaluatorBuilder.java:135)
    at org.jpmml.evaluator.ModelEvaluatorBuilder.build(ModelEvaluatorBuilder.java:115)
    ...

如果您查看源代码,您可以在ModelEvaluatorBuilder 找到以下限制:

if((inputFields.size() + groupFields.size()) > 1000){
            throw new InvalidElementException("Model has too many input fields", miningSchema);
        }

所以我的 45k 输入字段太多了。如果我得到正确的 PMML 文档,我只能对 inpt 字段使用原子数据类型(int、char、double 等)。

有什么想法可以实际解决这个限制吗?

【问题讨论】:

    标签: numpy machine-learning pca pmml


    【解决方案1】:

    您可以使用自己的检查逻辑(例如“接受所有内容”)覆盖ModelEvaluatorBuilder#checkSchema(ModelEvaluator) 方法:

    evaluator = new LoadingModelEvaluatorBuilder(){
        @Override
        protected void checkSchema(ModelEvaluator<?> modelEvaluator){
            // Anything goes - I'm willing to accept the responsibility for my own actions 
        }
    }
        .setLocatable(false)
        .load(new File("/tmp/pca.pmml"))
        .build();
    

    这种健全性检查是有原因的。 (J)PMML 不适用于处理二进制 blob(例如图像),将图像对象表示为 45k 双域是一个非常糟糕的主意。

    【讨论】:

    • 感谢您的回答。您是否知道任何其他交换格式?
    • 如果模型是使用 PIL + SkLearn 训练的,那么相同的技术组合也是部署的最佳(尤其是性能)。转换为任何其他表示将导致效率低下。由于这是一个非常数字密集的计算(即矩阵工作),那么也许 ONNX 标准可以表示和执行这个工作流程(尽管可能不支持 KNN 算法)。
    猜你喜欢
    • 1970-01-01
    • 2012-07-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-10
    • 2015-07-18
    • 2021-12-17
    相关资源
    最近更新 更多