使用oracle sql进行随机数据采样,生成数据

Random data sampling with oracle sql, data generation

我需要从总体中生成一些样本数据。我想通过对 Oracle 11g 数据库的 SQL 查询来执行此操作。

这是一个人口规模为 4 且样本规模为 2 的简单工作示例:

with population as (
    select 1 as val from dual union all 
    select 2 from dual union all 
    select 3 from dual union all 
    select 4 from dual)

select val from (
    select val, dbms_random.value(0,10) AS RANDORDER 
    from  population 
    order by randorder) 
where rownum <= 2

(oracle sample() 函数对我来说不能与 WITH 子句一起使用)

但现在我,我想 "upscale" 或乘以我的样本数据。这样我就可以获得人口数据的 150% 样本数据(例如,人口规模 4 和样本规模 6)

是否有通过 SQL 查询实现此目的的好方法?

您可以使用 CONNECT BY:

with population(val, RANDOMORDER) as (
    select level, dbms_random.value(0,10) AS RANDORDER 
    from dual
    connect by level <= 6
    ORDER BY RANDORDER
)
select val
FROM population
WHERE rownum <= 4;

db<>fiddle demo

解决方案取决于,如果您想要第一个初始集合中的所有行和最后一个集合中的随机附加行,则使用:

with params(size_, sample_) as (select 4, 6 from dual)
select val 
  from (
    select mod(level - 1, size_) + 1 val, sample_,
           case when level <= size_ * floor(sample_ / size_) then 0 
                else dbms_random.value() 
           end rand
      from params
      connect by level <= size_ * ceil(sample_ / size_)
      order by rand)
  where rownum <= sample_

但是,如果您允许出现类似 (1, 1, 2, 2, 3, 3) 这样的结果的可能性,其中某些值可能根本不会出现在输出中(此处 4),则使用此:

with params(size_, sample_) as (select 4, 6 from dual)
select val 
  from (
    select mod(level - 1, size_) + 1 val, sample_, dbms_random.value() rand
      from params
      connect by level <= size_ * ceil(sample_ / size_)
      order by rand)
  where rownum <= sample_

它是如何工作的?我们构建集 (1, 2, 3, 4) 的次数与除法 sample / size 的结果一样多。然后我们分配随机值。在第一种情况下,我将 0 分配给第一组,因此它们肯定会在输出中,而随机值将分配给最后一组。在第二种情况下,随机分配给所有行。