【发布时间】:2019-08-28 18:38:57
【问题描述】:
我正在努力帮助我的团队简化占用大量时间的数据提取流程。我们接收多种格式的数据,并且属性排列方式不同。有没有办法使用 RapidMiner 创建一个流程:
- 按计划处理放入文件夹中的文件(此 一个我想我知道的,但我很喜欢这方面的提示作为预定的流程 对我来说是新的)
- 自动识别输入文件类型并路由到正确的运算符(例如“读取 CSV”)
- 识别相对较少的属性并相应地排列它们。在某些情况下,属性的命名方式与我们的摄取格式相同,而在其他情况下则不同(例如,phone vs phone # vs Phone )
我们处理的属性主要由name、id、phone、email、address组成。此外,在某些情况下,名称是先/后分开的,在某些情况下是全名。
我认识到,为这些简单的属性修改文件应该不难,但是我们收到的文件数量和缺乏顺序使得在没有一点自动化的情况下简化流程非常困难。我还将转向标准化接收格式,但出于多种原因,这种格式即将出现,而不是立即解决。
感谢您分享的任何提示或指导。
【问题讨论】:
标签: etl rapidminer data-munging