使用语法困难的字符串作为数据框中的列名

Question

我正在使用类似于以下摘录的数据框：

df <- data.frame(A=c("Some messy string to be used",222,0), 
                 B=c("Very important ? indicator from 2001", 888, 44),
                 C=c("001 This variable / makes no sense", 888, 44),
                 D=c("Geography", 1, 2))

我想使用第一行的值作为列名，我使用下面的代码：

names(df) <- make.names(df[1,])

不幸的是，语法生成格式为 Xn 的名称，如下所示：

> names(df)
[1] "X3" "X3" "X1" "X3"

我知道使用的字符串对于 make.names 进行有意义的转换来说太乱了。 如何强制 R 以更有效的方式使用那些混乱的字符串？根据经验，我想：

保留数字（因为它们对应于时间）
至少保留文本中的几个开头单词
确保名称是唯一的
整个解决方案必须相当通用，因为第一行有很多垃圾（通常是空格或特殊字符）。

Answer 1

您根本不需要使用 make.names — 您可以直接 分配字符串 。这在 R 中工作得很好。当您尝试将名称用作 R 名称时，您只需要反引号（例如，在 $ 运算符之后）：

names(df) = unlist(df[1,])
df$`Some messy string to be used`

Answer 2

在 data.frame 中使用 stringsAsFactors = F，这会将列创建为 char 而不是因子。然后在上面写上名字。

df <- data.frame(A=c("Some messy string to be used",222,0), 
             B=c("Very important ? indicator from 2001", 888, 44),
             C=c("001 This variable / makes no sense", 888, 44),
             D=c("Geography", 1, 2),stringsAsFactors = F)
names(df) <- make.names(df[1,])
names(df)

使用语法困难的字符串作为数据框中的列名

Using syntactically difficult strings as column names in a data frame

string

syntax

r

names

dataframe