如何从R中的文本文件中提取特定段落

how to extract specific paragraphs from a text file in R

我正在使用 R studio 处理一个文本文件,该文件包含以下形式的文本数据:

*

A name
A date
A referene number

A text....bla bla bla bla
bla bla bla bla bla bla bla bla bla bla bla bla
bla bla bla bla bla bla bla bla bla bla bla bla
bla bla bla bla bla bla bla bla bla bla bla bla


*

A name
A date
A reference number

Another text....bla bla bla bla
bla bla bla bla bla bla bla bla bla bla bla bla
bla bla bla bla bla bla bla bla bla bla bla bla
bla bla bla bla bla bla bla bla bla bla bla bla

*

同样的模式一遍又一遍。

我只想获取文本并将它们中的每一个作为一个元素存储在列表中。我做了 A = grep("\*",myText) 来获取 * 所在的行数。我想要遍历文件以获取从 A[1]+6 开始到 A[2]-1.

结束的文本

将“/tmp/out”替换为您的文件名

txt <- readLines("/tmp/out")
lns <- data.frame(beg=which(grepl("beginning of the paragraph i want",txt)),
                  end=which(grepl("end of the paragraph i want",txt)))
txt.2 <- lapply(seq_along(lns$beg),function(l){
                         paste(txt[seq(from=lns$beg[l],
                                       to=lns$end[l],
                                       by=1)],collapse=" ")
                                       })
txt.2

# or for referencing by the star, the lns is obtained this way
lns <- data.frame(beg=rev(rev(grep("[*]",txt) + 6)[-1]),
              end=(grep("[*]",txt) - 2)[-1])