如何创建一个在 data.frame 中发挥良好的新类型?

How to create a new type which plays well inside data.frame?

我想有几种方法可以做到这一点。因此,这个问题的答案 如果没有意见,可能是主观的。所以我会尽量缩小问题的范围,并且 给你我已经完成的细节。

上下文

我正在使用 R6 包并且我创建了一个 IntervalNumeric R6Class 有两个字段 lower_boundupper_bound:

require(R6)
NumericInterval <-
  R6Class(
        "NumericInterval",
        public = list(
          lower_bound = NA,
          upper_bound = NA,
          initialize = function(low, up) {
            self$lower_bound <- low
            self$upper_bound <- up
          },
          as_character = function() {
            paste0("[", self$lower_bound, ", ",
                        self$upper_bound, "]")}))

我还使用 S3 通用方法系统获得了 as.characterprint NumericInterval 类型:

as.character.NumericInterval <- function(x, ...) {
  x$as_character()}
print.NumericInterval <- function(x, ...) {
  x$as_character()}

现在我可以做到了(print 也一样):

> as.character(NumericInterval$new(0, pi))

[1] "[0, 3.14159265358979]"

问题:

现在需要做什么才能将此新类型用作 data.frame 列类型?

例如我希望能够做到这一点:

(df <- data.frame(
   X = c("I1", "I2", "I3"),
   Y = c(NumericInterval$new(0,1),
         NumericInterval$new(1,2),
         NumericInterval$new(2,3)))

并得到:

   X      Y
1 I1 [0, 1]
2 I2 [1, 2]
3 I3 [2, 3]

但我得到:

Error in as.data.frame.default(x[[i]], optional = TRUE) :
  cannot coerce class ‘c("NumericInterval", "R6")’ to a data.frame

当然我也希望能够访问对象并执行以下操作:

df[2, 2]$lower_bound <- 0

tibbles 似乎是一个解决方案

(df <- tibble(
X = c("I1", "I2", "I3"),
Y = c(NumericInterval$new(0,1),
NumericInterval$new(1,2),
NumericInterval$new(2,3))))

产生:

# A tibble: 3 x 2
  X     Y
  <chr> <list>
1 I1    <NmrcIntr>
2 I2    <NmrcIntr>
3 I3    <NmrcIntr>

并且每个 NumericInterval 都按预期放置,例如:

> require(dplyr)
> df[2,1][[1]] %>% pull


[[1]]
<NumericInterval>
  Public:
    as_character: function ()
    clone: function (deep = FALSE)
    initialize: function (low, up)
    lower_bound: 0
    upper_bound: 1

但是tibble的输出和获取对象的方式不是我想要的 期待。

在将 R6 对象强制转换为数据框之前,您需要做出一些设计决定。也许最重要的是您希望在哪个级别进行矢量化。

在您的示例中,您将 "atomic" NumericIntervals 放入向量中,这当然有一些优点,但主要缺点是当您尝试使用基本 R 向量函数时在 NumericInterval 的集合上,R 将对象视为环境(这就是 R6 对象)。这意味着您不会得到您正在寻找的那种行为,因为您希望 R 以不同于通常处理环境向量的方式处理 这些 环境的向量。换句话说,要处理这种工作方式,您需要定义 另一个 class 方法来管理向量操作。这是可能的,但看起来复杂、混乱且效率低下。

在我看来,最好将矢量化保留在单个 R6 对象中 - 也就是说,在单个 R6 对象中包含 lower_boundsupper_bounds 的向量。 R6 class 可以处理打印、格式化和子集化,并且可以充当数据框中的整列。

要做到这一切,您首先需要定义泛型函数的一些 R6 特化:

`[.R6` <- function(x, ...) x$`[`(...) 
`[<-.R6` <- function(x, ...) x$`[<-`(...)
length.R6 <- function(x) x$length()
format.R6 <- function(x) x$format()
as.data.frame.R6 <- function(x, ...) x$as.data.frame()

将它们设为 .R6 而不是 NumericInterval 允许您在多个不同的 class 中使用它们。

现在我们可以用我们需要的专业定义我们的 class:

NumericInterval <- R6Class("NumericInterval",
        public = list(
          lower_bound = NA,
          upper_bound = NA,
          initialize = function(low, up) {
            self$lower_bound <- low
            self$upper_bound <- up
          },
          `[` = function(n){
            return(NumericInterval$new(self$lower_bound[n], self$upper_bound[n]))
          },
          `[<-` = function(n, m){
            self$lower_bound[n] <- m[1]
            self$upper_bound[n] <- m[2]
            invisible(self)
          },
          length = function() length(self$lower_bound), 
          as.data.frame = function(...) {
            structure(
              list(interval = structure(a)), 
              class = "data.frame", 
              row.names = seq_along(self$lower_bound))
          },
          as_character = function() {
            paste0("[", self$lower_bound, ", ",
                        self$upper_bound, "]")},
          format = function(...) self$as_character(),
          print = function() {
            print(self$as_character(), quote = FALSE)
            invisible(self)}))

这会产生以下行为:

a <- NumericInterval$new(1:3, 4:6)
a
#> [1] [1, 4] [2, 5] [3, 6]

as.data.frame(a)
#>   interval
#> 1   [1, 4]
#> 2   [2, 5]
#> 3   [3, 6]

df <- data.frame(id = LETTERS[1:3], interval = a)
df
#>   id interval
#> 1  A   [1, 4]
#> 2  B   [2, 5]
#> 3  C   [3, 6]

df[1,]
#>   id interval
#> 1  A   [1, 4]

df$interval[1]$lower_bound
#> [1] 1

这当然不是生产级代码。特别是,您需要包括错误处理以确保上限和下限的长度相同,并且都是数字。