Wrapper around unnest_tokens for n-grams of noun — unnest_noun

명사를 추출하여 n-gram으로 토큰화합니다.

unnest_noun_ngrams(
  tbl,
  output,
  input,
  n = 3L,
  n_min = n,
  ngram_delim = " ",
  drop = TRUE,
  collapse = NULL,
  ...
)

Arguments

tbl: A data frame.
output: character or symbol. 출력열로 새로 만들 변수 이름
input: character or symbol. 입력으로 사용할 변수 이름
n: integer. n-gram의 단어 수입니다. 1 이상의 정수.
n_min: integer. 이것은 1보다 크거나 같고 n보다 작거나 같은 정수여야 함
ngram_delim: character. 생성된 n-gram에서 단어 사이의 구분 기호
drop: logical. 원래 입력 열을 삭제해야 하는지 여부. 기본값은 TRUE이며 원래 입력 열과 새 출력 열의 이름이 같은 경우 무시됨.
collapse: A character vector. 결과에서 개별 n-gram들을 그룹핑할 변수 이름. 기본값은 NULL로 개별 n-gram들을 묶지 않음.
...: 토크나이저(tokenize_noun_ngrams)에 전달되는 추가 인수
stopwords: character. n-그램에서 제외할 불용어의 문자형 벡터

Value

토큰화된 character 벡터를 성분으로 갖는 list. simplify값이 TRUE이고 x가 단일값일 때에는 character 벡터

Examples

# \donttest{
library(dplyr)

president_speech %>%
  select(title, doc) %>% 
  filter(row_number() <= 2) %>%
  unnest_noun_ngrams(
    noun_bigram,
    doc,
    n = 2,
    ngram_delim = ":",
    type = "noun2"
  )
#> # A tibble: 271 × 2
#>    title                              noun_bigram
#>    <chr>                              <chr>      
#>  1 "2005 한일 우정의 해 개막식 축사 " 일:우정    
#>  2 "2005 한일 우정의 해 개막식 축사 " 우정:해    
#>  3 "2005 한일 우정의 해 개막식 축사 " 해:개막식  
#>  4 "2005 한일 우정의 해 개막식 축사 " 개막식:축하
#>  5 "2005 한일 우정의 해 개막식 축사 " 축하:행사  
#>  6 "2005 한일 우정의 해 개막식 축사 " 행사:축하  
#>  7 "2005 한일 우정의 해 개막식 축사 " 축하:참석  
#>  8 "2005 한일 우정의 해 개막식 축사 " 참석:여러분
#>  9 "2005 한일 우정의 해 개막식 축사 " 여러분:모두
#> 10 "2005 한일 우정의 해 개막식 축사 " 모두:환영  
#> # … with 261 more rows
  
president_speech %>%
  select(title, doc) %>% 
  filter(row_number() <= 2) %>%
  unnest_noun_ngrams(
    noun_bigram,
    doc,
    n = 2,
    ngram_delim = ":",
    drop = FALSE
  )   
#> # A tibble: 222 × 3
#>    title                              doc                                noun_…¹
#>    <chr>                              <chr>                              <chr>  
#>  1 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 우정:해
#>  2 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 해:개… 
#>  3 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 개막식…
#>  4 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 축하:… 
#>  5 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 행사:… 
#>  6 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 축하:… 
#>  7 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 참석:… 
#>  8 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 모두:… 
#>  9 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 환영:… 
#> 10 "2005 한일 우정의 해 개막식 축사 " "  먼저 한,일 우정의 해 개막식을 … 감사:… 
#> # … with 212 more rows, and abbreviated variable name ¹noun_bigram
 
# grouping using group_by() function
president_speech %>%
  filter(row_number() <= 4) %>%
  mutate(speech_year = substr(date, 1, 4)) %>% 
  select(speech_year, title, doc) %>% 
  group_by(speech_year) %>%
  unnest_noun_ngrams(
    noun_bigram,
    doc,
    n = 2,
    ngram_delim = ":"
  )
#> # A tibble: 1,806 × 2
#> # Groups:   speech_year [2]
#>    speech_year noun_bigram
#>    <chr>       <chr>      
#>  1 2005        우정:해    
#>  2 2005        해:개막식  
#>  3 2005        개막식:축하
#>  4 2005        축하:행사  
#>  5 2005        행사:축하  
#>  6 2005        축하:참석  
#>  7 2005        참석:모두  
#>  8 2005        모두:환영  
#>  9 2005        환영:감사  
#> 10 2005        감사:인사  
#> # … with 1,796 more rows
  
# grouping using collapse argument
president_speech %>%
  filter(row_number() <= 4) %>%
  mutate(speech_year = substr(date, 1, 4)) %>% 
  select(speech_year, title, doc) %>% 
  unnest_noun_ngrams(
    noun_bigram,
    doc,
    n = 2,
    ngram_delim = ":",
    collapse = "speech_year"
  )
#> # A tibble: 1,806 × 2
#>    speech_year noun_bigram
#>    <chr>       <chr>      
#>  1 2005        우정:해    
#>  2 2005        해:개막식  
#>  3 2005        개막식:축하
#>  4 2005        축하:행사  
#>  5 2005        행사:축하  
#>  6 2005        축하:참석  
#>  7 2005        참석:모두  
#>  8 2005        모두:환영  
#>  9 2005        환영:감사  
#> 10 2005        감사:인사  
#> # … with 1,796 more rows
# }