在 palantir-foundry 中使用模板在数据的输入版本之间切换并分析输出答案

【问题标题】：Use of templates to switch between input versions of data and analyze outputs in palantir-foundry在 palantir-foundry 中使用模板在数据的输入版本之间切换并分析输出
【发布时间】：2021-09-29 04:29:35
【问题描述】：

我们希望在代码库中构建一个单一的管道，用于清理、协调数据并将其转换为感兴趣的特征。我们想在不同的输入上应用那个单一的管道代码，然后测试输出的样子。

例如，我们希望在合成数据、仅包含回顾性数据的“真实”数据版本 1 和包含回顾性和前瞻性数据的“真实”数据版本 2 上测试管道。输出的比较可能是版本 1 与版本 2 中糖尿病患者的百分比。

我看到您可以在 Foundry 中对代码存储库进行模板化。这是一个可行的选择吗？您能否将您的代码存储库模板化并应用于我提供的三个场景？有更好的选择吗？

【问题讨论】：

标签： palantir-foundry

【解决方案1】：

如果您的数据规模相当小，我建议您在此处走测试驱动的开发路径，而不是尝试在各种数据集中比较和对比结果。您会发现准确比较结果的迭代时间和难度可能相当高。

为此，您应该按照我列出的方法 here 并为您期望的每个输入创建代表性数据集作为您的存储库中的 .csv 文件，然后您可以将这些模式作为唯一输入合并到您的核心代码中并轻松检查输出。

这将使您更轻松、更快速地“收紧”您的代码，之后您可以在真实的全尺寸数据上运行此逻辑并根据需要生成输出。

模板代码是可能的，但应该非常小心地合并。如果您真正要解决的是比较和对比代码在任意模式上的执行，那么您应该使用测试驱动的 in-repo 开发。如果您所追求的是在代码运行后跨多种输出运行一组核心逻辑，那么生成的转换将非常有效。如果您真正想要的是跨不同许可项目推出大量转换代码库，其中每个项目都需要完全独立/单独配置，那么也许你应该考虑模板。我会坚持测试驱动的开发和生成的转换，直到你证明不是这样。

【讨论】：