无法过滤从 Arrow table 创建的 DataFrame

Unable to filter DataFrame created from Arrow table

我在 julia 中有以下功能,读取 Arrow 文件(使用 Arrow.jl)从磁盘读取数据并处理它:

function getmembershipsdays(fromId, toId)
  memberships = Arrow.Table("HouseholdMemberships.arrow") |> DataFrame
  filter!([:IndividualId] => id -> id >= fromId && id <= toId, memberships)
  ...
end

> Error: ERROR: LoadError: MethodError: no method matching
> deleteat!(::Arrow.Primitive{Int64,Array{Int64,1}}, ::Array{Int64,1})

The DataFrame has the following structure:
123226x10 DataFrame
Row | MembershipId | IndividualId | HouseholdId | ...
    | Int64        | Int64        | Int64       |

函数中单步执行 Dataframe 的其余代码有效,但如果我添加过滤条件,则会出现此错误。就好像 Dataframe 列没有转换为底层的 julia 类型。

如果我这样做

m = filter([:IndividualId] => id -> id >= fromId && id <= toId, memberships)

然后就可以了。如何就地过滤?

您正在使用内存映射,这意味着您无法就地调整从 Arrow.jl 源创建的 DataFrame 的大小。这是您必须为从 Arrow 源中超快速零拷贝创建数据帧而付出的代价。

为什么要这样设计?

  1. 很多时候你只读取数据帧(不改变它们)---在这种情况下你可能想节省复制数据的成本(特别是对于非常大的数据集)。
  2. 使用 DataFrames.jl 中的复制功能执行复制非常容易(例如在您的示例中将 filter! 替换为 filter)。

有关更多示例,请参阅 https://bkamins.github.io/julialang/2020/11/06/arrow.html(特别是 - 如何避免使用 IO 源而不是文件名作为源进行内存映射)。

PS。注意 id >= fromId && id <= toId 可以写成 fromId <= id <= toId.