在 Redshift 中使用 Python 聚合 UDF
Aggregate UDFs with Python in Redshift
我设法在 AmazonRedshift 中使用 Python 编写了一些标量函数,即将一列或几列作为输入并根据某种逻辑或转换返回单个值。
但是有什么方法可以在 UDF 中传递数字列(即列表)的所有值并计算这些值的统计信息,例如平均值或标准差?
文档指出只有标量 udf 函数是可能的(参见 http://docs.aws.amazon.com/redshift/latest/dg/user-defined-functions.html)。
但是,如果值列表不是太大,您可以通过创建一个字符串标量 udf 来作弊,该字符串列表是 LISTAGG 函数执行的结果。
例如:select udfSum(listagg(val,'|')) from table;
参见:http://docs.aws.amazon.com/redshift/latest/dg/r_LISTAGG.html
我设法在 AmazonRedshift 中使用 Python 编写了一些标量函数,即将一列或几列作为输入并根据某种逻辑或转换返回单个值。
但是有什么方法可以在 UDF 中传递数字列(即列表)的所有值并计算这些值的统计信息,例如平均值或标准差?
文档指出只有标量 udf 函数是可能的(参见 http://docs.aws.amazon.com/redshift/latest/dg/user-defined-functions.html)。
但是,如果值列表不是太大,您可以通过创建一个字符串标量 udf 来作弊,该字符串列表是 LISTAGG 函数执行的结果。
例如:select udfSum(listagg(val,'|')) from table;
参见:http://docs.aws.amazon.com/redshift/latest/dg/r_LISTAGG.html