【发布时间】:2020-06-08 16:38:59
【问题描述】:
我正在尝试清理庞大数据集中的一些数据。 一列包含销售额的值。示例值可能如下所示:
清理数据:
Sales Potential
230
120
300
但是,在某些时候会出现这样的情况:
脏数据
0, 0, 0, 0, 0
4, 0, 0, 0
0, 0, 480
0, 200, 0
在脏数据的第一种情况下,单元格应该只包含一个零:0
在所有其他情况下,如果有任何非零数字,我想提取此数字并用此值替换单元格或添加新的清理列。
所以脏数据清理干净了:
清理数据:
0
4
480
200
我的方法是在 R 中使用 RegExpressions,因为我正在使用 Power-Query 将数据加载到 Power-BI。
我试图找到一种模式,在其中提取我正在寻找的值并将其放入新列中。但是,我的结果看起来什么都没有。
在R 中是否有更简单的方法来实现这一点?
到目前为止的代码:
library(stringr)
OutputRegEx <- data.frame(MyDataset)
Splitter = function(x) substr(str_extract(x,'[1-9]'),1,7)
OutputRegEx[["RegExAuswertung"]] <- apply(OutputRegEx[43],1, function(x) Splitter(x) )
【问题讨论】:
标签: r regex powerbi substring powerquery