测试模型参数的整洁方法

Question

我想比较一组使用相同预测变量但模型参数不同的模型的模型性能。这似乎是使用 broom 来创建整洁输出的地方，但我无法弄清楚。以下是一些无法工作的代码，可帮助说明我的想法：

seq(1:10) %>%
do(fit = knn(train_Market, test_Market, train_Direction, k=.), score = mean(fit==test_Direction)) %>%
tidy()

有关更多上下文，这是我们正在尝试 tidyverse-ify 的 ISLR 实验室之一的一部分。您可以在此处查看整个实验室：https://github.com/AmeliaMN/tidy-islr/blob/master/lab3/lab3.Rmd

[更新：可重现的例子]很难在这里做一个最小的例子，因为在模型拟合之前需要进行数据整理，但这应该是可重现的：

library(ISLR)
library(dplyr)

train = Smarket %>%
  filter(Year < 2005)
test = Smarket %>%
  filter(Year >= 2005)

train_Market = train %>%
  select(Lag1, Lag2)
test_Market = test %>%
  select(Lag1, Lag2)

train_Direction = train %>%
  select(Direction) %>%
  .$Direction 

set.seed(1)
knn_pred = knn(train_Market, test_Market, train_Direction, k=1)
mean(knn_pred==test_Direction)

knn_pred = knn(train_Market, test_Market, train_Direction, k=3)
mean(knn_pred==test_Direction)

knn_pred = knn(train_Market, test_Market, train_Direction, k=4)
mean(knn_pred==test_Direction)

等等

Answer 1

由于每个 knn（和 oracle）的输出都是一个向量，这对于 tidyr 的 unnest（结合 purrr 的 map 和 rep_along 来说是一个很好的例子：

library(class)
library(purrr)
library(tidyr)
set.seed(1)

predictions <- data_frame(k = 1:5) %>%
  unnest(prediction = map(k, ~ knn(train_Market, test_Market, train_Direction, k = .))) %>%
  mutate(oracle = rep_along(prediction, test_Direction))

predictions 变量组织为：

# A tibble: 1,260 x 3
       k prediction oracle
   <int>     <fctr> <fctr>
1      1         Up     Up
2      1       Down     Up
3      1         Up   Down
4      1         Up     Up
5      1         Up     Up
6      1       Down     Up
7      1       Down   Down
8      1       Down     Up
9      1       Down     Up
10     1         Up     Up
# ... with 1,250 more rows

可以简单概括为：

predictions %>%
  group_by(k) %>%
  summarize(accuracy = mean(prediction == oracle))

同样，您不需要扫帚，因为每个输出都是一个因素，但如果它是一个模型，您可以使用扫帚的 tidy 或 augment，然后以类似的方式取消嵌套.

这种方法的一个重要方面是它可以灵活地处理多种参数组合，通过将它们与 tidyr 的 crossing（或 expand.grid）组合并使用 invoke_rows 来应用函数到每一行。例如，您可以尝试 l 和 k:

的变体

crossing(k = 2:5, l = 0:1) %>%
  invoke_rows(knn, ., train = train_Market, test = test_Market, cl = train_Direction) %>%
  unnest(prediction = .out) %>%
  mutate(oracle = rep_along(prediction, test_Direction)) %>%
  group_by(k, l) %>%
  summarize(accuracy = mean(prediction == oracle))

这个returns:

Source: local data frame [8 x 3]
Groups: k [?]

      k     l  accuracy
  <int> <int>     <dbl>
1     2     0 0.5396825
2     2     1 0.5277778
3     3     0 0.5317460
4     3     1 0.5317460
5     4     0 0.5277778
6     4     1 0.5357143
7     5     0 0.4841270
8     5     1 0.4841270

测试模型参数的整洁方法

tidy method of testing model parameters

r

dplyr

tidyr

broom