R使用readlines从文本文件中提取条目百分比
R extract percentage of entries out of textfile using readlines
您好,我有一个非常大的 txt 文件(字符),我想从中提取 10% 的条目并将它们保存到另一个 txt 文件中。
con1 <- file("ABC.txt", "rb") # 2,36 mio DS
dfc1<-readLines(con1, ??? ,skipNul = TRUE)#
而不是???我想要类似 <10% of all data> 的东西。
所以如果我的 ABC.txt 像
" BBC Worldwide 是英国广播公司 (BBC) 的主要商业部门和全资子公司。该业务的存在是为了支持 BBC public 服务使命并实现利润最大化代表它..."
我的新文件应该只包含 10%(随机)的词,例如:
" 全球业务代表..."
有没有办法在 R 中做到这一点?
谢谢
如果您阅读文本文件,则可以使用 stringr 包使用以下代码获取 10% 的随机单词样本:
text<- c("BBC Worldwide is a principle commercial arm and a wholly owned subsidiary of the British Broadcasting Corporation (BBC). The business exists to support the BBC public service mission and to maximise profits on its behalf...")
set.seed(9999)
library(stringr)
selection<-sample.int(str_count(text," ")+1, round(0.1*str_count(text," ")+1))
subset<-word(text, selection)
您好,我有一个非常大的 txt 文件(字符),我想从中提取 10% 的条目并将它们保存到另一个 txt 文件中。
con1 <- file("ABC.txt", "rb") # 2,36 mio DS
dfc1<-readLines(con1, ??? ,skipNul = TRUE)#
而不是???我想要类似 <10% of all data> 的东西。
所以如果我的 ABC.txt 像
" BBC Worldwide 是英国广播公司 (BBC) 的主要商业部门和全资子公司。该业务的存在是为了支持 BBC public 服务使命并实现利润最大化代表它..."
我的新文件应该只包含 10%(随机)的词,例如:
" 全球业务代表..."
有没有办法在 R 中做到这一点?
谢谢
如果您阅读文本文件,则可以使用 stringr 包使用以下代码获取 10% 的随机单词样本:
text<- c("BBC Worldwide is a principle commercial arm and a wholly owned subsidiary of the British Broadcasting Corporation (BBC). The business exists to support the BBC public service mission and to maximise profits on its behalf...")
set.seed(9999)
library(stringr)
selection<-sample.int(str_count(text," ")+1, round(0.1*str_count(text," ")+1))
subset<-word(text, selection)