【问题标题】:How to make a random sample in Openrefine?如何在 Openrefine 中制作随机样本?
【发布时间】:2018-02-14 05:36:30
【问题描述】:

我们经常需要抽取大量dataset 的随机样本?在openrefine 上最好的方法是什么?这对于习惯于在RPython 中执行此操作的从业者可能很有用。

提前感谢您的任何建议!

【问题讨论】:

    标签: random data-cleaning openrefine


    【解决方案1】:

    Open Refine 没有内置函数,但您可以使用 Python/Jython 创建一个新的随机整数列。例如,如果您有 100 000 行:

    import random
    return random.randint(0, 100000)
    

    然后,您可以对这些列进行排序、对行进行永久重新排序并选择例如带有自定义文本构面的前一千:

    row.index < 1000
    

    编辑:我忘记了@OwenStephens 的this extension 添加了一个 randomNumber GREL 函数。随意安装。

    【讨论】:

    • 这很有帮助。再次感谢!埃托雷!
    • 不客气。顺便编辑了答案。注意:如果您对 OpenRefine 有具体问题,也可以在专用的Google group 上提问。
    猜你喜欢
    • 2015-03-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-11-02
    • 1970-01-01
    • 2014-09-04
    相关资源
    最近更新 更多