编写 Rmd 文档时如何请求提前退出?

How to request an early exit when knitting an Rmd document?

假设您有一个无法清晰呈现的 R markdown 文档。

我知道您可以将 knitr 块选项 error 设置为 TRUE 以请求继续评估,即使存在错误。您可以通过 error = TRUE 为单个块执行此操作,或者通过 knitr::opts_chunk$set(error = TRUE).

以更全局的方式执行此操作

但有时在编织过程中出现的错误仍然是致命的。我最近遇到的两个示例:尝试 unlink() 当前工作目录(糟糕!)并在 RStudio 不可用时从内联 R 代码调用 rstudioapi::getVersion()。是否有对这些错误的一般描述,即 error = TRUE 无法描述的错误?有没有办法容忍内联 R 代码与块中的错误?

此外,在这种情况下,是否有更多官方方法可以提前停止编织或自动调试?

要提前退出编织过程,您可以在源文档的任何地方(在代码块或内联表达式中)使用函数 knitr::knit_exit()。一旦 knit_exit() 被调用,knitr 将忽略文档的所有其余部分并写出到目前为止收集的结果。

目前无法容忍内联 R 代码中的错误。您需要确保内联 R 代码始终 运行s 没有错误 1。如果确实发生错误,您应该在控制台的 knitr 日志中看到产生错误的行范围,格式为 Quitting from lines x1-x2 (filename.Rmd)。然后您可以转到文件 filename.Rmd 并查看从 x1x2 的行有什么问题。同样的事情适用于带有块选项 error = FALSE.

的代码块

除了上面提到的错误类型之外,找到问题的根源可能很棘手。例如,当你无意中 unlink() 当前目录时,它不应该停止编织过程,因为 unlink() 无论如何都成功了。您可能会在编织过程后 运行 遇到问题,例如 LaTeX/HTML 找不到输出图形文件。在这种情况下,您可以尝试将 knit_exit() 应用于文档中的所有代码块。实现此目的的一种方法是在某个块之后设置到 运行 knit_exit() 的块挂钩。下面是一个使用线性搜索的例子(你可以使用二分法来改进它):

#' Render an input document chunk by chunk until an error occurs
#' 
#' @param input the input filename (an Rmd file in this example)
#' @param compile a function to compile the input file, e.g. knitr::knit, or
#'   rmarkdown::render
knit_debug = function(input, compile = knitr::knit) {
  library(knitr)
  lines = readLines(input)
  chunk = grep(all_patterns$md$chunk.begin, lines)  # line number of chunk headers

  knit_hooks$set(debug = function(before) {
    if (!before) {
      chunk_current <<- chunk_current + 1
      if (chunk_current >= chunk_num) knit_exit()
    }
  })

  opts_chunk$set(debug = TRUE)

  # try to exit after the i-th chunk and see which chunk introduced the error
  for (chunk_num in seq_along(chunk)) {
    chunk_current = 0  # a chunk counter, incremented after each chunk
    res = try(compile(input))
    if (inherits(res, 'try-error')) {
      message('The first error came from line ', chunk[chunk_num])
      break
    }
  }
}

  1. 这是设计使然。我认为将 error = TRUE 用于代码块是个好主意,因为有时我们想要显示错误,例如出于教学目的。但是,如果我也允许内联代码出现错误,作者可能无法识别内联代码中的致命错误。内联代码通常用于嵌入 values 内联,如果内联值是错误,我认为它没有多大意义。想象一下像 The P-value of my test is ERROR 这样的报告中的一句话,如果 knitr 没有发出错误信号,则需要作者非常仔细地阅读报告输出才能发现这个问题。我认为必须依靠人眼来发现这样的错误是一个坏主意。

恕我直言,调试 Rmd 文档时遇到困难是一个错误警告。我有一个经验法则:在 Rmd 之外 做繁重的工作。在Rmd里面做渲染,渲染。这使 Rmd 代码保持简单。

我的大型 R 程序是这样的。

data <- loadData()
analytics <- doAnalytics(data)
rmarkdown::render("theDoc.Rmd", envir=analytics)

(此处,doAnalytics returns 一个列表或环境。该列表或环境通过 envir 参数,使分析计算的结果在文档中可用。)

doAnalytics 函数执行复杂的计算。我可以使用常规工具对其进行调试,并且可以轻松检查其输出。当我调用 rmarkdown::render 时,我知道困难的部分正在正常工作。 Rmd代码只有"print this"和"format that",方便调试

这个分工对我来说效果不错,可以推荐一下。特别是与调试隐藏在动态呈现文档中的复杂计算的艰巨任务相比。