haven::read_sav 显示价值标签而不是代码
haven::read_sav showing value labels rather than codes
我正在使用 haven
将 .sav
文件导入 R
。我想知道如何显示值标签而不是数字代码。在下面的示例中,我想显示物种名称而不是数字 1、2、3。
library(haven)
path <- system.file("examples", "iris.sav", package = "haven")
df1 <- read_sav(path)
head(df1)
# A tibble: 6 x 5
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
<dbl> <dbl> <dbl> <dbl> <dbl+lbl>
1 5.10 3.50 1.40 0.200 1
2 4.90 3.00 1.40 0.200 1
3 4.70 3.20 1.30 0.200 1
4 4.60 3.10 1.50 0.200 1
5 5.00 3.60 1.40 0.200 1
6 5.40 3.90 1.70 0.400 1
str(df1)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: atomic 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
..- attr(*, "format.spss")= chr "F8.2"
$ Sepal.Width : atomic 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
..- attr(*, "format.spss")= chr "F8.2"
$ Petal.Length: atomic 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
..- attr(*, "format.spss")= chr "F8.2"
$ Petal.Width : atomic 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
..- attr(*, "format.spss")= chr "F8.2"
$ Species :Class 'labelled' atomic [1:150] 1 1 1 1 1 1 1 1 1 1 ...
.. ..- attr(*, "format.spss")= chr "F8.0"
.. ..- attr(*, "labels")= Named num [1:3] 1 2 3
.. .. ..- attr(*, "names")= chr [1:3] "setosa" "versicolor" "virginica"
您可以使用 rio 包中名为 characterize()
或 factorize()
的函数来转换此类数据结构。
例如:
data$Species1 <- rio::characterize(data$Species)
如果您选择特征化,该列将转换为字符,但如果您选择使用因式分解,该列将转换为因子。
您可以访问这里reference:
不确定你是否想要这样,可能你想在导入时转换它。
谢谢,希望对您有所帮助。
运行 转换使用 factorize()
.
输出:
# A tibble: 150 x 6
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species Species1
# <dbl> <dbl> <dbl> <dbl> <dbl+lbl> <fctr>
# 1 5.1 3.5 1.4 0.2 1 setosa
# 2 4.9 3.0 1.4 0.2 1 setosa
# 3 4.7 3.2 1.3 0.2 1 setosa
# 4 4.6 3.1 1.5 0.2 1 setosa
# 5 5.0 3.6 1.4 0.2 1 setosa
在 haven
包
中找到了一个非常简单的解决方案
haven::as_factor(df1)
# A tibble: 150 x 5
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
<dbl> <dbl> <dbl> <dbl> <fct>
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5 3.4 1.5 0.2 setosa
9 4.4 2.9 1.4 0.2 setosa
10 4.9 3.1 1.5 0.1 setosa
# ... with 140 more rows
我正在使用 haven
将 .sav
文件导入 R
。我想知道如何显示值标签而不是数字代码。在下面的示例中,我想显示物种名称而不是数字 1、2、3。
library(haven)
path <- system.file("examples", "iris.sav", package = "haven")
df1 <- read_sav(path)
head(df1)
# A tibble: 6 x 5
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
<dbl> <dbl> <dbl> <dbl> <dbl+lbl>
1 5.10 3.50 1.40 0.200 1
2 4.90 3.00 1.40 0.200 1
3 4.70 3.20 1.30 0.200 1
4 4.60 3.10 1.50 0.200 1
5 5.00 3.60 1.40 0.200 1
6 5.40 3.90 1.70 0.400 1
str(df1)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: atomic 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
..- attr(*, "format.spss")= chr "F8.2"
$ Sepal.Width : atomic 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
..- attr(*, "format.spss")= chr "F8.2"
$ Petal.Length: atomic 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
..- attr(*, "format.spss")= chr "F8.2"
$ Petal.Width : atomic 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
..- attr(*, "format.spss")= chr "F8.2"
$ Species :Class 'labelled' atomic [1:150] 1 1 1 1 1 1 1 1 1 1 ...
.. ..- attr(*, "format.spss")= chr "F8.0"
.. ..- attr(*, "labels")= Named num [1:3] 1 2 3
.. .. ..- attr(*, "names")= chr [1:3] "setosa" "versicolor" "virginica"
您可以使用 rio 包中名为 characterize()
或 factorize()
的函数来转换此类数据结构。
例如:
data$Species1 <- rio::characterize(data$Species)
如果您选择特征化,该列将转换为字符,但如果您选择使用因式分解,该列将转换为因子。
您可以访问这里reference:
不确定你是否想要这样,可能你想在导入时转换它。
谢谢,希望对您有所帮助。
运行 转换使用 factorize()
.
输出:
# A tibble: 150 x 6
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species Species1
# <dbl> <dbl> <dbl> <dbl> <dbl+lbl> <fctr>
# 1 5.1 3.5 1.4 0.2 1 setosa
# 2 4.9 3.0 1.4 0.2 1 setosa
# 3 4.7 3.2 1.3 0.2 1 setosa
# 4 4.6 3.1 1.5 0.2 1 setosa
# 5 5.0 3.6 1.4 0.2 1 setosa
在 haven
包
haven::as_factor(df1)
# A tibble: 150 x 5
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
<dbl> <dbl> <dbl> <dbl> <fct>
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5 3.4 1.5 0.2 setosa
9 4.4 2.9 1.4 0.2 setosa
10 4.9 3.1 1.5 0.1 setosa
# ... with 140 more rows