readr::read_csv问题:汉字变成乱码
readr::read_csv issue: Chinese Character becomes messy codes
我正在尝试将数据集导入 RStudio,但是我被汉字卡住了,因为它们变成了乱码。这是代码:
library(tidyverse)
df <- read_csv("中文,英文\n英文,德文")
df
# A tibble: 1 x 2
`\xd6\xd0\xce\xc4` `Ӣ\xce\xc4`
<chr> <chr>
1 "<U+04E2>\xce\xc4" "<U+00B5>\xc2\xce\xc4"
当我使用基本函数 read.csv 时,它运行良好。我想我一定是在编码方面做错了什么。但是read_csv里面没有编码选项,怎么办?
这是因为字符被标记为UTF-8
,而实际编码是系统默认的(您可以通过stringi::stri_enc_get()
获得)。
因此,您可以执行以下任一操作:
1) 读取正确编码的数据:
df <- read_csv("中文,英文\n英文,德文", locale = locale(encoding = stringi::stri_enc_get()))
2) 读取编码不正确的数据,稍后用正确的编码标记它们(注意,这并不总是有效):
df <- read_csv("中文,英文\n英文,德文")
df <- dplyr::mutate_all(df, `Encoding<-`, value = "unknown")
我正在尝试将数据集导入 RStudio,但是我被汉字卡住了,因为它们变成了乱码。这是代码:
library(tidyverse)
df <- read_csv("中文,英文\n英文,德文")
df
# A tibble: 1 x 2
`\xd6\xd0\xce\xc4` `Ӣ\xce\xc4`
<chr> <chr>
1 "<U+04E2>\xce\xc4" "<U+00B5>\xc2\xce\xc4"
当我使用基本函数 read.csv 时,它运行良好。我想我一定是在编码方面做错了什么。但是read_csv里面没有编码选项,怎么办?
这是因为字符被标记为UTF-8
,而实际编码是系统默认的(您可以通过stringi::stri_enc_get()
获得)。
因此,您可以执行以下任一操作:
1) 读取正确编码的数据:
df <- read_csv("中文,英文\n英文,德文", locale = locale(encoding = stringi::stri_enc_get()))
2) 读取编码不正确的数据,稍后用正确的编码标记它们(注意,这并不总是有效):
df <- read_csv("中文,英文\n英文,德文")
df <- dplyr::mutate_all(df, `Encoding<-`, value = "unknown")