R中如何拆分英文字母、数字和汉字?
How to split English letters, numbers and Chinese characters in R?
我需要拆分Chinese/English/numbers的混合字符串(如“123-321-中文.jpg”或“001-123你好.png”)或提取字符串中的中文单词使用 R。有什么解决方案吗?
只提取中文单词,
我们可以使用 str_extract
:使用 "[:alpha:]+"
:
提取所有非拉丁字符
library(stringr)
string <- c("123-321-中文.jpg", "001-123你好.png")
str_extract(string, "[:alpha:]+")
输出:
[1] "中文" "你好"
我需要拆分Chinese/English/numbers的混合字符串(如“123-321-中文.jpg”或“001-123你好.png”)或提取字符串中的中文单词使用 R。有什么解决方案吗?
只提取中文单词,
我们可以使用 str_extract
:使用 "[:alpha:]+"
:
library(stringr)
string <- c("123-321-中文.jpg", "001-123你好.png")
str_extract(string, "[:alpha:]+")
输出:
[1] "中文" "你好"