【发布时间】:2018-02-14 05:36:30
【问题描述】:
我们经常需要抽取大量dataset 的随机样本?在openrefine 上最好的方法是什么?这对于习惯于在R 和Python 中执行此操作的从业者可能很有用。
提前感谢您的任何建议!
【问题讨论】:
标签: random data-cleaning openrefine
我们经常需要抽取大量dataset 的随机样本?在openrefine 上最好的方法是什么?这对于习惯于在R 和Python 中执行此操作的从业者可能很有用。
提前感谢您的任何建议!
【问题讨论】:
标签: random data-cleaning openrefine
Open Refine 没有内置函数,但您可以使用 Python/Jython 创建一个新的随机整数列。例如,如果您有 100 000 行:
import random
return random.randint(0, 100000)
然后,您可以对这些列进行排序、对行进行永久重新排序并选择例如带有自定义文本构面的前一千:
row.index < 1000
编辑:我忘记了@OwenStephens 的this extension 添加了一个 randomNumber GREL 函数。随意安装。
【讨论】: