用于扩展变量转换的 Pythonic 语法（多个冗长的方法调用）

Question

试图寻求一些关于策划广泛的 ETL 过程的最佳方式的指导。我的管道有一个相当流畅的提取部分，并以简洁的方式加载到指定的文件中；但我认为进行转换步骤的唯一方法是一系列变量赋值：

a = ['some','form','of','petl','data']
b = petl.addfield(a, 'NewStrField', str(a))
c = petl.addrownumbers(b)
d = petl.rename(c, 'row', 'ID')
.......

重新格式化以分配相同的变量名有一定道理，但无助于提高可读性：

a = ['some','form','of','petl','data']
a = petl.addfield(a, 'NewStrField', str(a))
a = petl.addrownumbers(a)
a = petl.rename(a, 'row', 'ID')
.......

我读过像这样的多个方法调用：

a = ['some','form','of','data']

result = petl.addfield(a, 'NewStrField', str(a))
    .addrownumbers(a)
    .rename(a, 'row', 'ID')
.......

但这行不通，因为函数需要 table 作为传递的第一个参数。

我缺少一些基本知识吗？我不愿意相信在商业上这样做的正确方法涉及 1000+ LOC？

Answer 1

创建部分应用函数的列表，然后遍历该列表。

transforms = [
    lambda x: petl.addfield(x, 'NewStrField', str(x)),
    petl.addrownumbers,
    lambda x: petl.rename(x, 'row', 'ID')
]

a = ['some', 'form', 'of', 'petl', 'data']
for f in transforms:
    a = f(a)

您的 "total" 转换是列表 transforms 中转换的组合。您可以使用提供函数组合的库或滚动您自己的库来预先执行这些操作（以一些额外的函数调用为代价）。

def compose(*f):
    if not f:
        return lambda x: x  # Identity function, the identity for function composition
    return lambda x: f[0](compose(f[1:])(x))

# Note the reversed order of the functions compared to 
# the list above.
transform = compose(
    lambda x: petl.rename(x, 'row', 'ID'),
    petl.addrownumbers,
    lambda x: petl.addfield(x, 'NewStrField', str(x)),
)


a = ['some', 'form', 'of', 'petl', 'data']
result = transform(a)

用于扩展变量转换的 Pythonic 语法（多个冗长的方法调用）

Pythonic syntax for extended variable transformation (multiple lengthy method calls)

python

pandas

petl