如何创建一个在 data.frame 中发挥良好的新类型?
How to create a new type which plays well inside data.frame?
我想有几种方法可以做到这一点。因此,这个问题的答案
如果没有意见,可能是主观的。所以我会尽量缩小问题的范围,并且
给你我已经完成的细节。
上下文
我正在使用 R6
包并且我创建了一个 IntervalNumeric
R6Class 有两个字段 lower_bound
和 upper_bound
:
require(R6)
NumericInterval <-
R6Class(
"NumericInterval",
public = list(
lower_bound = NA,
upper_bound = NA,
initialize = function(low, up) {
self$lower_bound <- low
self$upper_bound <- up
},
as_character = function() {
paste0("[", self$lower_bound, ", ",
self$upper_bound, "]")}))
我还使用 S3
通用方法系统获得了 as.character
和 print
NumericInterval
类型:
as.character.NumericInterval <- function(x, ...) {
x$as_character()}
print.NumericInterval <- function(x, ...) {
x$as_character()}
现在我可以做到了(print
也一样):
> as.character(NumericInterval$new(0, pi))
[1] "[0, 3.14159265358979]"
问题:
现在需要做什么才能将此新类型用作 data.frame
列类型?
例如我希望能够做到这一点:
(df <- data.frame(
X = c("I1", "I2", "I3"),
Y = c(NumericInterval$new(0,1),
NumericInterval$new(1,2),
NumericInterval$new(2,3)))
并得到:
X Y
1 I1 [0, 1]
2 I2 [1, 2]
3 I3 [2, 3]
但我得到:
Error in as.data.frame.default(x[[i]], optional = TRUE) :
cannot coerce class ‘c("NumericInterval", "R6")’ to a data.frame
当然我也希望能够访问对象并执行以下操作:
df[2, 2]$lower_bound <- 0
tibble
s 似乎是一个解决方案
(df <- tibble(
X = c("I1", "I2", "I3"),
Y = c(NumericInterval$new(0,1),
NumericInterval$new(1,2),
NumericInterval$new(2,3))))
产生:
# A tibble: 3 x 2
X Y
<chr> <list>
1 I1 <NmrcIntr>
2 I2 <NmrcIntr>
3 I3 <NmrcIntr>
并且每个 NumericInterval
都按预期放置,例如:
> require(dplyr)
> df[2,1][[1]] %>% pull
[[1]]
<NumericInterval>
Public:
as_character: function ()
clone: function (deep = FALSE)
initialize: function (low, up)
lower_bound: 0
upper_bound: 1
但是tibble的输出和获取对象的方式不是我想要的
期待。
在将 R6 对象强制转换为数据框之前,您需要做出一些设计决定。也许最重要的是您希望在哪个级别进行矢量化。
在您的示例中,您将 "atomic" NumericInterval
s 放入向量中,这当然有一些优点,但主要缺点是当您尝试使用基本 R 向量函数时在 NumericInterval
的集合上,R 将对象视为环境(这就是 R6 对象)。这意味着您不会得到您正在寻找的那种行为,因为您希望 R 以不同于通常处理环境向量的方式处理 这些 环境的向量。换句话说,要处理这种工作方式,您需要定义 另一个 class 方法来管理向量操作。这是可能的,但看起来复杂、混乱且效率低下。
在我看来,最好将矢量化保留在单个 R6 对象中 - 也就是说,在单个 R6 对象中包含 lower_bounds
和 upper_bounds
的向量。 R6 class 可以处理打印、格式化和子集化,并且可以充当数据框中的整列。
要做到这一切,您首先需要定义泛型函数的一些 R6 特化:
`[.R6` <- function(x, ...) x$`[`(...)
`[<-.R6` <- function(x, ...) x$`[<-`(...)
length.R6 <- function(x) x$length()
format.R6 <- function(x) x$format()
as.data.frame.R6 <- function(x, ...) x$as.data.frame()
将它们设为 .R6
而不是 NumericInterval
允许您在多个不同的 class 中使用它们。
现在我们可以用我们需要的专业定义我们的 class:
NumericInterval <- R6Class("NumericInterval",
public = list(
lower_bound = NA,
upper_bound = NA,
initialize = function(low, up) {
self$lower_bound <- low
self$upper_bound <- up
},
`[` = function(n){
return(NumericInterval$new(self$lower_bound[n], self$upper_bound[n]))
},
`[<-` = function(n, m){
self$lower_bound[n] <- m[1]
self$upper_bound[n] <- m[2]
invisible(self)
},
length = function() length(self$lower_bound),
as.data.frame = function(...) {
structure(
list(interval = structure(a)),
class = "data.frame",
row.names = seq_along(self$lower_bound))
},
as_character = function() {
paste0("[", self$lower_bound, ", ",
self$upper_bound, "]")},
format = function(...) self$as_character(),
print = function() {
print(self$as_character(), quote = FALSE)
invisible(self)}))
这会产生以下行为:
a <- NumericInterval$new(1:3, 4:6)
a
#> [1] [1, 4] [2, 5] [3, 6]
as.data.frame(a)
#> interval
#> 1 [1, 4]
#> 2 [2, 5]
#> 3 [3, 6]
df <- data.frame(id = LETTERS[1:3], interval = a)
df
#> id interval
#> 1 A [1, 4]
#> 2 B [2, 5]
#> 3 C [3, 6]
df[1,]
#> id interval
#> 1 A [1, 4]
df$interval[1]$lower_bound
#> [1] 1
这当然不是生产级代码。特别是,您需要包括错误处理以确保上限和下限的长度相同,并且都是数字。
我想有几种方法可以做到这一点。因此,这个问题的答案 如果没有意见,可能是主观的。所以我会尽量缩小问题的范围,并且 给你我已经完成的细节。
上下文
我正在使用 R6
包并且我创建了一个 IntervalNumeric
R6Class 有两个字段 lower_bound
和 upper_bound
:
require(R6)
NumericInterval <-
R6Class(
"NumericInterval",
public = list(
lower_bound = NA,
upper_bound = NA,
initialize = function(low, up) {
self$lower_bound <- low
self$upper_bound <- up
},
as_character = function() {
paste0("[", self$lower_bound, ", ",
self$upper_bound, "]")}))
我还使用 S3
通用方法系统获得了 as.character
和 print
NumericInterval
类型:
as.character.NumericInterval <- function(x, ...) {
x$as_character()}
print.NumericInterval <- function(x, ...) {
x$as_character()}
现在我可以做到了(print
也一样):
> as.character(NumericInterval$new(0, pi))
[1] "[0, 3.14159265358979]"
问题:
现在需要做什么才能将此新类型用作 data.frame
列类型?
例如我希望能够做到这一点:
(df <- data.frame(
X = c("I1", "I2", "I3"),
Y = c(NumericInterval$new(0,1),
NumericInterval$new(1,2),
NumericInterval$new(2,3)))
并得到:
X Y
1 I1 [0, 1]
2 I2 [1, 2]
3 I3 [2, 3]
但我得到:
Error in as.data.frame.default(x[[i]], optional = TRUE) :
cannot coerce class ‘c("NumericInterval", "R6")’ to a data.frame
当然我也希望能够访问对象并执行以下操作:
df[2, 2]$lower_bound <- 0
tibble
s 似乎是一个解决方案
(df <- tibble(
X = c("I1", "I2", "I3"),
Y = c(NumericInterval$new(0,1),
NumericInterval$new(1,2),
NumericInterval$new(2,3))))
产生:
# A tibble: 3 x 2
X Y
<chr> <list>
1 I1 <NmrcIntr>
2 I2 <NmrcIntr>
3 I3 <NmrcIntr>
并且每个 NumericInterval
都按预期放置,例如:
> require(dplyr)
> df[2,1][[1]] %>% pull
[[1]]
<NumericInterval>
Public:
as_character: function ()
clone: function (deep = FALSE)
initialize: function (low, up)
lower_bound: 0
upper_bound: 1
但是tibble的输出和获取对象的方式不是我想要的 期待。
在将 R6 对象强制转换为数据框之前,您需要做出一些设计决定。也许最重要的是您希望在哪个级别进行矢量化。
在您的示例中,您将 "atomic" NumericInterval
s 放入向量中,这当然有一些优点,但主要缺点是当您尝试使用基本 R 向量函数时在 NumericInterval
的集合上,R 将对象视为环境(这就是 R6 对象)。这意味着您不会得到您正在寻找的那种行为,因为您希望 R 以不同于通常处理环境向量的方式处理 这些 环境的向量。换句话说,要处理这种工作方式,您需要定义 另一个 class 方法来管理向量操作。这是可能的,但看起来复杂、混乱且效率低下。
在我看来,最好将矢量化保留在单个 R6 对象中 - 也就是说,在单个 R6 对象中包含 lower_bounds
和 upper_bounds
的向量。 R6 class 可以处理打印、格式化和子集化,并且可以充当数据框中的整列。
要做到这一切,您首先需要定义泛型函数的一些 R6 特化:
`[.R6` <- function(x, ...) x$`[`(...)
`[<-.R6` <- function(x, ...) x$`[<-`(...)
length.R6 <- function(x) x$length()
format.R6 <- function(x) x$format()
as.data.frame.R6 <- function(x, ...) x$as.data.frame()
将它们设为 .R6
而不是 NumericInterval
允许您在多个不同的 class 中使用它们。
现在我们可以用我们需要的专业定义我们的 class:
NumericInterval <- R6Class("NumericInterval",
public = list(
lower_bound = NA,
upper_bound = NA,
initialize = function(low, up) {
self$lower_bound <- low
self$upper_bound <- up
},
`[` = function(n){
return(NumericInterval$new(self$lower_bound[n], self$upper_bound[n]))
},
`[<-` = function(n, m){
self$lower_bound[n] <- m[1]
self$upper_bound[n] <- m[2]
invisible(self)
},
length = function() length(self$lower_bound),
as.data.frame = function(...) {
structure(
list(interval = structure(a)),
class = "data.frame",
row.names = seq_along(self$lower_bound))
},
as_character = function() {
paste0("[", self$lower_bound, ", ",
self$upper_bound, "]")},
format = function(...) self$as_character(),
print = function() {
print(self$as_character(), quote = FALSE)
invisible(self)}))
这会产生以下行为:
a <- NumericInterval$new(1:3, 4:6)
a
#> [1] [1, 4] [2, 5] [3, 6]
as.data.frame(a)
#> interval
#> 1 [1, 4]
#> 2 [2, 5]
#> 3 [3, 6]
df <- data.frame(id = LETTERS[1:3], interval = a)
df
#> id interval
#> 1 A [1, 4]
#> 2 B [2, 5]
#> 3 C [3, 6]
df[1,]
#> id interval
#> 1 A [1, 4]
df$interval[1]$lower_bound
#> [1] 1
这当然不是生产级代码。特别是,您需要包括错误处理以确保上限和下限的长度相同,并且都是数字。