Julia:从表达式创建 DataFrame 列?
Julia: Create DataFrame column from expression?
鉴于此:
dict = Dict(("y" => ":x / 2"))
df = DataFrame(x = [1, 2, 3, 4])
df
4×1 DataFrame
│ Row │ x │
│ │ Int64 │
├─────┼───────┤
│ 1 │ 1 │
│ 2 │ 2 │
│ 3 │ 3 │
│ 4 │ 4 │
我想做这个:
4×2 DataFrame
│ Row │ x │ y │
│ │ Int64 │ Float64 │
├─────┼───────┼─────────┤
│ 1 │ 1 │ 0.5 │
│ 2 │ 2 │ 1.0 │
│ 3 │ 3 │ 1.5 │
│ 4 │ 4 │ 2.0 │
这似乎是 DataFramesMeta
的完美应用,无论是 @with
还是 @eachrow
,但我无法让我的表达式在以下环境中按预期进行评估:x
存在。
基本上,我希望能够遍历 dict
中的 (k, v)
对,并为每个 Symbol(k)
创建一个具有相应值 eval(Meta.parse(v))
的新列,或其他按照这些思路,评估发生时 Symbols
like :x
在评估时存在。
我没想到这会奏效,但事实并非如此:
[df[Symbol(k)] = eval(Meta.parse(v)) for (k, v) in dict]
ERROR: MethodError: no method matching /(::Symbol, ::Int64)
但这说明了问题:我需要在表达式包含的符号存在的环境中计算表达式。
但是,将它移动到 @with
中不起作用:
using DataFramesMeta
@with(df, [eval(Meta.parse(v)) for (k, v) in dict])
ERROR: MethodError: no method matching /(::Symbol, ::Int64)
使用 @eachrow
以同样的方式失败:
using DataFramesMeta
@eachrow df begin
for (k, v) in dict
@newcol tmp::Vector{Float32}
tmp = eval(Meta.parse(v))
end
end
ERROR: MethodError: no method matching /(::Symbol, ::Int64)
我猜我不清楚 DataFramesMeta
如何在 DataFrame 中创建环境的一些关键要素。我也不一定要为此使用 DataFramesMeta
,任何合理简洁的选项都可以工作,因为我可以将它封装在一个包函数中。
注意:我控制了要解析成表达式的字符串的格式,但我想避免复杂性,例如在字符串中指定DataFrame对象的名称,或者广播每个操作。我希望初始字符串中的表达式语法对于非 Julia 程序员来说相当清楚。
更新: 我在这个问题的评论中尝试了所有三种解决方案,但它们有一个问题:它们不起作用内部函数。
dict = Dict(("y" => ":x / 2"))
data = DataFrame(x = [1, 2, 3, 4])
function transform_from_dict(df, dict)
new = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))
return new
end
transform_from_dict(data, dict)
ERROR: UndefVarError: df not defined
或者:
function transform_from_dict!(df, dict)
[df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v))))) for (k, v) in dict]
return nothing
end
transform_from_dict!(data, dict)
ERROR: UndefVarError: df not defined
好的,结合所有评论者的答案有效!
using DataFrames
using DataFramesMeta
dict = Dict(("y" => ":x / 2"))
data = DataFrame(x = [1, 2, 3, 4])
@张实唯 的方法使用 @with
:
# using @with
function transform_from_dict1(df, dict)
global df
[df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v))))) for (k, v) in dict]
return df
end
transform_from_dict1(data, dict)
# 4×2 DataFrame
# │ Row │ x │ y │
# │ │ Int64 │ Float64 │
# ├─────┼───────┼─────────┤
# │ 1 │ 1 │ 0.5 │
# │ 2 │ 2 │ 1.0 │
# │ 3 │ 3 │ 1.5 │
# │ 4 │ 4 │ 2.0 │
和@Bogumił Kamiński的方法使用@transform
:
# using @transform
function transform_from_dict2(df, dict)
global df
new_df = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))
return new_df
end
transform_from_dict2(data, dict)
# 4×2 DataFrame
# │ Row │ x │ y │
# │ │ Int64 │ Float64 │
# ├─────┼───────┼─────────┤
# │ 1 │ 1 │ 0.5 │
# │ 2 │ 2 │ 1.0 │
# │ 3 │ 3 │ 1.5 │
# │ 4 │ 4 │ 2.0 │
两者都使用 global
.
合并了 @Lorenz 中的修复
请注意,第二种形式使用的内存比第一种多 2.5 倍,可能是由于创建了第二个 DataFrame
:
julia> @allocated transform_from_dict1(data, dict)
853948
julia> @allocated transform_from_dict2(data, dict)
22009111
我也认为第一种形式更清晰一些,所以这就是我在内部使用的形式。
请注意,如果您的转换中有逻辑运算符,您可能需要广播逻辑运算符,并且像往常一样,您需要预先处理任何丢失的数据问题。
我和@Ajar 一起研究过这个答案,没有从那个答案中复制任何东西,我也不知道。我对 Julia 完全陌生,所以我不得不安装它(因为我认为在线编译器甚至不知道 DataFrame),后来我明白这些包必须在启动时调用,无论是在线还是离线。我添加了初学者可能需要知道的包信息。
using Pkg
Pkg.add("DataFrames")
Pkg.add("DataFramesMeta")
using DataFrames
using DataFramesMeta
dict = Dict(("y" => ":x / 2"))
df = DataFrame(x = [1, 2, 3, 4])
@with解决方案:
julia> function transform_from_dict!(k, v)
global df
df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v)))))
return nothing
end
transform_from_dict! (generic function with 2 methods)
julia> [transform_from_dict!(k, v) for (k, v) in dict]
1-element Array{Nothing,1}:
nothing
julia> df
4×2 DataFrame
Row │ x y
│ Int64 Float64
─────┼────────────────
1 │ 1 0.5
2 │ 2 1.0
3 │ 3 1.5
4 │ 4 2.0
@transform解决方案:
julia> function transform_from_dict(df, dict)
global new
new = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))
return new
end
transform_from_dict (generic function with 1 method)
julia>
julia> transform_from_dict(data, dict)
4×2 DataFrame
Row │ x y
│ Int64 Float64
─────┼────────────────
1 │ 1 0.5
2 │ 2 1.0
3 │ 3 1.5
4 │ 4 2.0
感谢其他评论员,@Ajar 的回答中列出了基本思想。
鉴于此:
dict = Dict(("y" => ":x / 2"))
df = DataFrame(x = [1, 2, 3, 4])
df
4×1 DataFrame
│ Row │ x │
│ │ Int64 │
├─────┼───────┤
│ 1 │ 1 │
│ 2 │ 2 │
│ 3 │ 3 │
│ 4 │ 4 │
我想做这个:
4×2 DataFrame
│ Row │ x │ y │
│ │ Int64 │ Float64 │
├─────┼───────┼─────────┤
│ 1 │ 1 │ 0.5 │
│ 2 │ 2 │ 1.0 │
│ 3 │ 3 │ 1.5 │
│ 4 │ 4 │ 2.0 │
这似乎是 DataFramesMeta
的完美应用,无论是 @with
还是 @eachrow
,但我无法让我的表达式在以下环境中按预期进行评估:x
存在。
基本上,我希望能够遍历 dict
中的 (k, v)
对,并为每个 Symbol(k)
创建一个具有相应值 eval(Meta.parse(v))
的新列,或其他按照这些思路,评估发生时 Symbols
like :x
在评估时存在。
我没想到这会奏效,但事实并非如此:
[df[Symbol(k)] = eval(Meta.parse(v)) for (k, v) in dict]
ERROR: MethodError: no method matching /(::Symbol, ::Int64)
但这说明了问题:我需要在表达式包含的符号存在的环境中计算表达式。
但是,将它移动到 @with
中不起作用:
using DataFramesMeta
@with(df, [eval(Meta.parse(v)) for (k, v) in dict])
ERROR: MethodError: no method matching /(::Symbol, ::Int64)
使用 @eachrow
以同样的方式失败:
using DataFramesMeta
@eachrow df begin
for (k, v) in dict
@newcol tmp::Vector{Float32}
tmp = eval(Meta.parse(v))
end
end
ERROR: MethodError: no method matching /(::Symbol, ::Int64)
我猜我不清楚 DataFramesMeta
如何在 DataFrame 中创建环境的一些关键要素。我也不一定要为此使用 DataFramesMeta
,任何合理简洁的选项都可以工作,因为我可以将它封装在一个包函数中。
注意:我控制了要解析成表达式的字符串的格式,但我想避免复杂性,例如在字符串中指定DataFrame对象的名称,或者广播每个操作。我希望初始字符串中的表达式语法对于非 Julia 程序员来说相当清楚。
更新: 我在这个问题的评论中尝试了所有三种解决方案,但它们有一个问题:它们不起作用内部函数。
dict = Dict(("y" => ":x / 2"))
data = DataFrame(x = [1, 2, 3, 4])
function transform_from_dict(df, dict)
new = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))
return new
end
transform_from_dict(data, dict)
ERROR: UndefVarError: df not defined
或者:
function transform_from_dict!(df, dict)
[df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v))))) for (k, v) in dict]
return nothing
end
transform_from_dict!(data, dict)
ERROR: UndefVarError: df not defined
好的,结合所有评论者的答案有效!
using DataFrames
using DataFramesMeta
dict = Dict(("y" => ":x / 2"))
data = DataFrame(x = [1, 2, 3, 4])
@张实唯 的方法使用 @with
:
# using @with
function transform_from_dict1(df, dict)
global df
[df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v))))) for (k, v) in dict]
return df
end
transform_from_dict1(data, dict)
# 4×2 DataFrame
# │ Row │ x │ y │
# │ │ Int64 │ Float64 │
# ├─────┼───────┼─────────┤
# │ 1 │ 1 │ 0.5 │
# │ 2 │ 2 │ 1.0 │
# │ 3 │ 3 │ 1.5 │
# │ 4 │ 4 │ 2.0 │
和@Bogumił Kamiński的方法使用@transform
:
# using @transform
function transform_from_dict2(df, dict)
global df
new_df = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))
return new_df
end
transform_from_dict2(data, dict)
# 4×2 DataFrame
# │ Row │ x │ y │
# │ │ Int64 │ Float64 │
# ├─────┼───────┼─────────┤
# │ 1 │ 1 │ 0.5 │
# │ 2 │ 2 │ 1.0 │
# │ 3 │ 3 │ 1.5 │
# │ 4 │ 4 │ 2.0 │
两者都使用 global
.
请注意,第二种形式使用的内存比第一种多 2.5 倍,可能是由于创建了第二个 DataFrame
:
julia> @allocated transform_from_dict1(data, dict)
853948
julia> @allocated transform_from_dict2(data, dict)
22009111
我也认为第一种形式更清晰一些,所以这就是我在内部使用的形式。
请注意,如果您的转换中有逻辑运算符,您可能需要广播逻辑运算符,并且像往常一样,您需要预先处理任何丢失的数据问题。
我和@Ajar 一起研究过这个答案,没有从那个答案中复制任何东西,我也不知道。我对 Julia 完全陌生,所以我不得不安装它(因为我认为在线编译器甚至不知道 DataFrame),后来我明白这些包必须在启动时调用,无论是在线还是离线。我添加了初学者可能需要知道的包信息。
using Pkg
Pkg.add("DataFrames")
Pkg.add("DataFramesMeta")
using DataFrames
using DataFramesMeta
dict = Dict(("y" => ":x / 2"))
df = DataFrame(x = [1, 2, 3, 4])
@with解决方案:
julia> function transform_from_dict!(k, v)
global df
df[!, Symbol(k)] = eval(:(@with(df, $(Meta.parse(v)))))
return nothing
end
transform_from_dict! (generic function with 2 methods)
julia> [transform_from_dict!(k, v) for (k, v) in dict]
1-element Array{Nothing,1}: nothing
julia> df
4×2 DataFrame Row │ x y │ Int64 Float64 ─────┼──────────────── 1 │ 1 0.5 2 │ 2 1.0 3 │ 3 1.5 4 │ 4 2.0
@transform解决方案:
julia> function transform_from_dict(df, dict)
global new
new = eval(Meta.parse("@transform(df, " * join(join.(collect(dict), " = "), ", ") * ")"))
return new
end
transform_from_dict (generic function with 1 method)
julia>
julia> transform_from_dict(data, dict)
4×2 DataFrame
Row │ x y
│ Int64 Float64
─────┼────────────────
1 │ 1 0.5
2 │ 2 1.0
3 │ 3 1.5
4 │ 4 2.0
感谢其他评论员,@Ajar 的回答中列出了基本思想。