unnest_noun_ngrams.Rd
명사를 추출하여 n-gram으로 토큰화합니다.
unnest_noun_ngrams(
tbl,
output,
input,
n = 3L,
n_min = n,
ngram_delim = " ",
drop = TRUE,
collapse = NULL,
...
)
A data frame.
character or symbol. 출력열로 새로 만들 변수 이름
character or symbol. 입력으로 사용할 변수 이름
integer. n-gram의 단어 수입니다. 1 이상의 정수.
integer. 이것은 1보다 크거나 같고 n보다 작거나 같은 정수여야 함
character. 생성된 n-gram에서 단어 사이의 구분 기호
logical. 원래 입력 열을 삭제해야 하는지 여부. 기본값은 TRUE이며 원래 입력 열과 새 출력 열의 이름이 같은 경우 무시됨.
A character vector. 결과에서 개별 n-gram들을 그룹핑할 변수 이름. 기본값은 NULL로 개별 n-gram들을 묶지 않음.
토크나이저(tokenize_noun_ngrams)에 전달되는 추가 인수
character. n-그램에서 제외할 불용어의 문자형 벡터
토큰화된 character 벡터를 성분으로 갖는 list. simplify값이 TRUE이고 x가 단일값일 때에는 character 벡터
# \donttest{
library(dplyr)
president_speech %>%
select(title, doc) %>%
filter(row_number() <= 2) %>%
unnest_noun_ngrams(
noun_bigram,
doc,
n = 2,
ngram_delim = ":",
type = "noun2"
)
#> # A tibble: 271 × 2
#> title noun_bigram
#> <chr> <chr>
#> 1 "2005 한일 우정의 해 개막식 축사 " 일:우정
#> 2 "2005 한일 우정의 해 개막식 축사 " 우정:해
#> 3 "2005 한일 우정의 해 개막식 축사 " 해:개막식
#> 4 "2005 한일 우정의 해 개막식 축사 " 개막식:축하
#> 5 "2005 한일 우정의 해 개막식 축사 " 축하:행사
#> 6 "2005 한일 우정의 해 개막식 축사 " 행사:축하
#> 7 "2005 한일 우정의 해 개막식 축사 " 축하:참석
#> 8 "2005 한일 우정의 해 개막식 축사 " 참석:여러분
#> 9 "2005 한일 우정의 해 개막식 축사 " 여러분:모두
#> 10 "2005 한일 우정의 해 개막식 축사 " 모두:환영
#> # … with 261 more rows
president_speech %>%
select(title, doc) %>%
filter(row_number() <= 2) %>%
unnest_noun_ngrams(
noun_bigram,
doc,
n = 2,
ngram_delim = ":",
drop = FALSE
)
#> # A tibble: 222 × 3
#> title doc noun_…¹
#> <chr> <chr> <chr>
#> 1 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 우정:해
#> 2 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 해:개…
#> 3 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 개막식…
#> 4 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 축하:…
#> 5 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 행사:…
#> 6 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 축하:…
#> 7 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 참석:…
#> 8 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 모두:…
#> 9 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 환영:…
#> 10 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 … 감사:…
#> # … with 212 more rows, and abbreviated variable name ¹noun_bigram
# grouping using group_by() function
president_speech %>%
filter(row_number() <= 4) %>%
mutate(speech_year = substr(date, 1, 4)) %>%
select(speech_year, title, doc) %>%
group_by(speech_year) %>%
unnest_noun_ngrams(
noun_bigram,
doc,
n = 2,
ngram_delim = ":"
)
#> # A tibble: 1,806 × 2
#> # Groups: speech_year [2]
#> speech_year noun_bigram
#> <chr> <chr>
#> 1 2005 우정:해
#> 2 2005 해:개막식
#> 3 2005 개막식:축하
#> 4 2005 축하:행사
#> 5 2005 행사:축하
#> 6 2005 축하:참석
#> 7 2005 참석:모두
#> 8 2005 모두:환영
#> 9 2005 환영:감사
#> 10 2005 감사:인사
#> # … with 1,796 more rows
# grouping using collapse argument
president_speech %>%
filter(row_number() <= 4) %>%
mutate(speech_year = substr(date, 1, 4)) %>%
select(speech_year, title, doc) %>%
unnest_noun_ngrams(
noun_bigram,
doc,
n = 2,
ngram_delim = ":",
collapse = "speech_year"
)
#> # A tibble: 1,806 × 2
#> speech_year noun_bigram
#> <chr> <chr>
#> 1 2005 우정:해
#> 2 2005 해:개막식
#> 3 2005 개막식:축하
#> 4 2005 축하:행사
#> 5 2005 행사:축하
#> 6 2005 축하:참석
#> 7 2005 참석:모두
#> 8 2005 모두:환영
#> 9 2005 환영:감사
#> 10 2005 감사:인사
#> # … with 1,796 more rows
# }