r tidytext 中的标记化,留在&符号中
Tokenization in r tidytext, leaving in ampersands
我目前正在使用 tidytext
包中的 unnest_tokens()
函数。它完全按照我的需要工作,但是,它从文本中删除了符号 (&)。我希望它不要那样做,但保持其他一切不变。
例如:
library(tidyverse)
library(tidytext)
d <- tibble(txt = "Let's go to the Q&A about B&B, it's great!")
d %>% unnest_tokens(word, txt, token="words")
目前 returns
# A tibble: 11 x 1
word
<chr>
1 let's
2 go
3 to
4 the
5 q
6 a
7 about
8 b
9 b
10 it's
11 great
但我想 return
# A tibble: 9 x 1
word
<chr>
1 let's
2 go
3 to
4 the
5 q&a
6 about
7 b&b
8 it's
9 great
有没有办法向 unnest_tokens()
发送一个选项来执行此操作,或者发送它当前使用的正则表达式并手动将其调整为不包含 & 符号?
我们可以将token
用作regex
library(tidytext)
library(dplyr)
d %>%
unnest_tokens(word, txt, token="regex", pattern = "[\s!,.]")
# A tibble: 9 x 1
# word
# <chr>
#1 let's
#2 go
#3 to
#4 the
#5 q&a
#6 about
#7 b&b
#8 it's
#9 great
我目前正在使用 tidytext
包中的 unnest_tokens()
函数。它完全按照我的需要工作,但是,它从文本中删除了符号 (&)。我希望它不要那样做,但保持其他一切不变。
例如:
library(tidyverse)
library(tidytext)
d <- tibble(txt = "Let's go to the Q&A about B&B, it's great!")
d %>% unnest_tokens(word, txt, token="words")
目前 returns
# A tibble: 11 x 1
word
<chr>
1 let's
2 go
3 to
4 the
5 q
6 a
7 about
8 b
9 b
10 it's
11 great
但我想 return
# A tibble: 9 x 1
word
<chr>
1 let's
2 go
3 to
4 the
5 q&a
6 about
7 b&b
8 it's
9 great
有没有办法向 unnest_tokens()
发送一个选项来执行此操作,或者发送它当前使用的正则表达式并手动将其调整为不包含 & 符号?
我们可以将token
用作regex
library(tidytext)
library(dplyr)
d %>%
unnest_tokens(word, txt, token="regex", pattern = "[\s!,.]")
# A tibble: 9 x 1
# word
# <chr>
#1 let's
#2 go
#3 to
#4 the
#5 q&a
#6 about
#7 b&b
#8 it's
#9 great