如何在 Openrefine 中制作随机样本?

How to make a random sample in Openrefine?

很多时候我们需要抽取大量的随机样本dataset?在 openrefine 上执行此操作的最佳方法是什么?这可能对曾经在 RPython.

中这样做的从业者有用

提前感谢您的任何建议!

Open Refine 没有为此内置的功能,但您可以使用 Python/Jython 创建一个新的随机整数列。例如,如果您有 100 000 行:

import random
return random.randint(0, 100000)

然后,您可以对这些列进行排序,永久重新排序行,select 例如前一千个带有自定义文本方面的内容:

row.index < 1000

编辑:我忘记了来自@OwenStephens 的 this extension 添加了一个 randomNumber GREL 函数。随意安装它。