Julia:从表达式创建 DataFrame 列?

Julia: Create DataFrame column from expression?

鉴于此:

dict = Dict(("y" => ":x / 2"))

df = DataFrame(x = [1, 2, 3, 4])

df
4×1 DataFrame
│ Row │ x     │
│     │ Int64 │
├─────┼───────┤
│ 1   │ 1     │
│ 2   │ 2     │
│ 3   │ 3     │
│ 4   │ 4     │

我想做这个:

4×2 DataFrame
│ Row │ x     │ y       │
│     │ Int64 │ Float64 │
├─────┼───────┼─────────┤
│ 1   │ 1     │ 0.5     │
│ 2   │ 2     │ 1.0     │
│ 3   │ 3     │ 1.5     │
│ 4   │ 4     │ 2.0     │

这似乎是 DataFramesMeta 的完美应用,无论是 @with 还是 @eachrow,但我无法让我的表达式在以下环境中按预期进行评估:x 存在。

基本上,我希望能够遍历 dict 中的 (k, v) 对,并为每个 Symbol(k) 创建一个具有相应值 eval(Meta.parse(v)) 的新列,或其他按照这些思路,评估发生时 Symbols like :x 在评估时存在。

我没想到这会奏效,但事实并非如此:

[df[Symbol(k)] = eval(Meta.parse(v)) for (k, v) in dict]

ERROR: MethodError: no method matching /(::Symbol, ::Int64)

但这说明了问题:我需要在表达式包含的符号存在的环境中计算表达式。

但是,将它移动到 @with 中不起作用:

using DataFramesMeta

@with(df, [eval(Meta.parse(v)) for (k, v) in dict])

ERROR: MethodError: no method matching /(::Symbol, ::Int64)

使用 @eachrow 以同样的方式失败:

using DataFramesMeta

@eachrow df begin
           for (k, v) in dict
               @newcol tmp::Vector{Float32}
               tmp = eval(Meta.parse(v))
           end
       end

ERROR: MethodError: no method matching /(::Symbol, ::Int64)

我猜我不清楚 DataFramesMeta 如何在 DataFrame 中创建环境的一些关键要素。我也不一定要为此使用 DataFramesMeta,任何合理简洁的选项都可以工作,因为我可以将它封装在一个包函数中。

注意:我控制了要解析成表达式的字符串的格式,但我想避免复杂性,例如在字符串中指定DataFrame对象的名称,或者广播每个操作。我希望初始字符串中的表达式语法对于非 Julia 程序员来说相当清楚。

更新: 我在这个问题的评论中尝试了所有三种解决方案,但它们有一个问题:它们不起作用内部函数。

dict = Dict(("y" => ":x / 2"))

data = DataFrame(x = [1, 2, 3, 4])


function transform_from_dict(df, dict)

    new = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))

    return new

end

transform_from_dict(data, dict)

ERROR: UndefVarError: df not defined

或者:

function transform_from_dict!(df, dict)

    [df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v))))) for (k, v) in dict]

    return nothing

end

transform_from_dict!(data, dict)

ERROR: UndefVarError: df not defined

好的,结合所有评论者的答案有效!

using DataFrames
using DataFramesMeta

dict = Dict(("y" => ":x / 2"))

data = DataFrame(x = [1, 2, 3, 4])

@张实唯 的方法使用 @with:

# using @with
function transform_from_dict1(df, dict)

    global df

    [df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v))))) for (k, v) in dict]

    return df

end

transform_from_dict1(data, dict)
# 4×2 DataFrame
# │ Row │ x     │ y       │
# │     │ Int64 │ Float64 │
# ├─────┼───────┼─────────┤
# │ 1   │ 1     │ 0.5     │
# │ 2   │ 2     │ 1.0     │
# │ 3   │ 3     │ 1.5     │
# │ 4   │ 4     │ 2.0     │

@Bogumił Kamiński的方法使用@transform

# using @transform
function transform_from_dict2(df, dict)

    global df

    new_df = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))

    return new_df

end

transform_from_dict2(data, dict)
# 4×2 DataFrame
# │ Row │ x     │ y       │
# │     │ Int64 │ Float64 │
# ├─────┼───────┼─────────┤
# │ 1   │ 1     │ 0.5     │
# │ 2   │ 2     │ 1.0     │
# │ 3   │ 3     │ 1.5     │
# │ 4   │ 4     │ 2.0     │

两者都使用 global.

合并了 @Lorenz 中的修复

请注意,第二种形式使用的内存比第一种多 2.5 倍,可能是由于创建了第二个 DataFrame:

julia> @allocated transform_from_dict1(data, dict)
853948

julia> @allocated transform_from_dict2(data, dict)
22009111

我也认为第一种形式更清晰一些,所以这就是我在内部使用的形式。

请注意,如果您的转换中有逻辑运算符,您可能需要广播逻辑运算符,并且像往常一样,您需要预先处理任何丢失的数据问题。

我和@Ajar 一起研究过这个答案,没有从那个答案中复制任何东西,我也不知道。我对 Julia 完全陌生,所以我不得不安装它(因为我认为在线编译器甚至不知道 DataFrame),后来我明白这些包必须在启动时调用,无论是在线还是离线。我添加了初学者可能需要知道的包信息。

using Pkg 
Pkg.add("DataFrames")
Pkg.add("DataFramesMeta")

using DataFrames
using DataFramesMeta 
dict = Dict(("y" => ":x / 2"))
df = DataFrame(x = [1, 2, 3, 4])

@with解决方案:

julia> function transform_from_dict!(k, v)
           global df
           df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v)))))
           return nothing
       end
transform_from_dict! (generic function with 2 methods)
julia> [transform_from_dict!(k, v) for (k, v) in dict]
1-element Array{Nothing,1}:
 nothing
julia> df
4×2 DataFrame
 Row │ x      y
     │ Int64  Float64
─────┼────────────────
   1 │     1      0.5
   2 │     2      1.0
   3 │     3      1.5
   4 │     4      2.0

@transform解决方案:

julia> function transform_from_dict(df, dict)
           global new
           new = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))

           return new

       end
transform_from_dict (generic function with 1 method)
julia>

julia> transform_from_dict(data, dict)
4×2 DataFrame
 Row │ x      y
     │ Int64  Float64
─────┼────────────────
   1 │     1      0.5
   2 │     2      1.0
   3 │     3      1.5
   4 │     4      2.0

感谢其他评论员,@Ajar 的回答中列出了基本思想。