如何获取依赖于数据框列子集的新列

How to get a new column that depends of a subset of dataframe columns

我的数据框有 3 列 ABC,对于每一行,这些列中只有一列包含一个值。

我想要一个 MERGE 列,其中包含来自 ABC

的值
using DataFrames

df = DataFrame(NAME = ["a", "b", "c"], A = [1, missing, missing], B = [missing, 2, missing], C = [missing, missing, 3])

3×4 DataFrame
│ Row │ NAME   │ A       │ B       │ C       │
│     │ String │ Int64?  │ Int64?  │ Int64?  │
├─────┼────────┼─────────┼─────────┼─────────┤
│ 1   │ a      │ 1       │ missing │ missing │
│ 2   │ b      │ missing │ 2       │ missing │
│ 3   │ c      │ missing │ missing │ 3       │

如何获得 MERGE 列的最佳 julia 方法?

3×5 DataFrame
│ Row │ NAME   │ A       │ B       │ C       │ MERGE │
│     │ String │ Int64?  │ Int64?  │ Int64?  │ Int64 │
├─────┼────────┼─────────┼─────────┼─────────┼───────┤
│ 1   │ a      │ 1       │ missing │ missing │ 1     │
│ 2   │ b      │ missing │ 2       │ missing │ 2     │
│ 3   │ c      │ missing │ missing │ 3       │ 3     │

到目前为止我能够解决的问题是:

select(df, :, [:A, :B, :C] => ByRow((a,b,c) -> sum(skipmissing([a, b, c]))) => :MERGE)

列的范围可变的情况如何?

select(df, range => ??? => :MERGE)

可以这样写:

julia> transform!(df, [:A, :B, :C] => ByRow(coalesce) => :MERGE)
3×5 DataFrame
│ Row │ NAME   │ A       │ B       │ C       │ MERGE │
│     │ String │ Int64?  │ Int64?  │ Int64?  │ Int64 │
├─────┼────────┼─────────┼─────────┼─────────┼───────┤
│ 1   │ a      │ 1       │ missing │ missing │ 1     │
│ 2   │ b      │ missing │ 2       │ missing │ 2     │
│ 3   │ c      │ missing │ missing │ 3       │ 3     │

您可以使用任何选择器代替 [:A, :B, :C],例如 All()Between(:A, :C)1:3