R中如何拆分英文字母、数字和汉字？

Question

我需要拆分Chinese/English/numbers的混合字符串（如“123-321-中文.jpg”或“001-123你好.png”）或提取字符串中的中文单词使用 R。有什么解决方案吗？

Answer 1

只提取中文单词，我们可以使用 str_extract：使用 "[:alpha:]+":

提取所有非拉丁字符

library(stringr)

string <- c("123-321-中文.jpg", "001-123你好.png")

str_extract(string, "[:alpha:]+")

输出：

[1] "中文" "你好"

How to split English letters, numbers and Chinese characters in R?