Wrapper around unnest_tokens for n-grams of noun
unnest_noun_ngrams.Rd
명사를 추출하여 n-gram으로 토큰화합니다.
Usage
unnest_noun_ngrams(
tbl,
output,
input,
n = 2L,
n_min = n,
ngram_delim = " ",
drop = TRUE,
collapse = NULL,
...
)
Arguments
- tbl
A data frame.
- output
character or symbol. 출력열로 새로 만들 변수 이름
- input
character or symbol. 입력으로 사용할 변수 이름
- n
integer. n-gram의 단어 수입니다. 1 이상의 정수. 기본값은 2.
- n_min
integer. 이것은 1보다 크거나 같고 n보다 작거나 같은 정수여야 함
- ngram_delim
character. 생성된 n-gram에서 단어 사이의 구분 기호
- drop
logical. 원래 입력 열을 삭제해야 하는지 여부. 기본값은 TRUE이며 원래 입력 열과 새 출력 열의 이름이 같은 경우 무시됨.
- collapse
A character vector. 결과에서 개별 n-gram들을 그룹핑할 변수 이름. 기본값은 NULL로 개별 n-gram들을 묶지 않음.
- ...
토크나이저(tokenize_noun_ngrams)에 전달되는 추가 인수
- stopwords
character. n-그램에서 제외할 불용어의 문자형 벡터
Examples
# \donttest{
library(dplyr)
president_speech %>%
select(title, doc) %>%
filter(row_number() <= 2) %>%
unnest_noun_ngrams(
noun_bigram,
doc,
n = 2,
ngram_delim = ":",
type = "noun2"
)
#> # A tibble: 264 × 2
#> title noun_bigram
#> <chr> <chr>
#> 1 "2005 한일 우정의 해 개막식 축사 " 일:우정
#> 2 "2005 한일 우정의 해 개막식 축사 " 우정:해
#> 3 "2005 한일 우정의 해 개막식 축사 " 해:개막식
#> 4 "2005 한일 우정의 해 개막식 축사 " 개막식:축하
#> 5 "2005 한일 우정의 해 개막식 축사 " 축하:행사
#> 6 "2005 한일 우정의 해 개막식 축사 " 행사:축하
#> 7 "2005 한일 우정의 해 개막식 축사 " 축하:참석
#> 8 "2005 한일 우정의 해 개막식 축사 " 참석:여러분
#> 9 "2005 한일 우정의 해 개막식 축사 " 여러분:모두
#> 10 "2005 한일 우정의 해 개막식 축사 " 모두:환영
#> # ℹ 254 more rows
president_speech %>%
select(title, doc) %>%
filter(row_number() <= 2) %>%
unnest_noun_ngrams(
noun_bigram,
doc,
n = 2,
ngram_delim = ":",
drop = FALSE
)
#> # A tibble: 209 × 3
#> title doc noun_bigram
#> <chr> <chr> <chr>
#> 1 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 우정:해
#> 2 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 해:개막식
#> 3 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 개막식:축하
#> 4 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 축하:행사
#> 5 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 행사:축하
#> 6 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 축하:참석
#> 7 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 참석:모두
#> 8 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 모두:환영
#> 9 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 환영:감사
#> 10 "2005 한일 우정의 해 개막식 축사 " " 먼저 한,일 우정의 해 개막식을 축하합니다. 이… 감사:인사
#> # ℹ 199 more rows
# grouping using group_by() function
president_speech %>%
filter(row_number() <= 4) %>%
mutate(speech_year = substr(date, 1, 4)) %>%
select(speech_year, title, doc) %>%
group_by(speech_year) %>%
unnest_noun_ngrams(
noun_bigram,
doc,
n = 2,
ngram_delim = ":"
)
#> # A tibble: 1,759 × 2
#> # Groups: speech_year [2]
#> speech_year noun_bigram
#> <chr> <chr>
#> 1 2005 우정:해
#> 2 2005 해:개막식
#> 3 2005 개막식:축하
#> 4 2005 축하:행사
#> 5 2005 행사:축하
#> 6 2005 축하:참석
#> 7 2005 참석:모두
#> 8 2005 모두:환영
#> 9 2005 환영:감사
#> 10 2005 감사:인사
#> # ℹ 1,749 more rows
# grouping using collapse argument
president_speech %>%
filter(row_number() <= 4) %>%
mutate(speech_year = substr(date, 1, 4)) %>%
select(speech_year, title, doc) %>%
unnest_noun_ngrams(
noun_bigram,
doc,
n = 2,
ngram_delim = ":",
collapse = "speech_year"
)
#> # A tibble: 1,759 × 2
#> speech_year noun_bigram
#> <chr> <chr>
#> 1 2005 우정:해
#> 2 2005 해:개막식
#> 3 2005 개막식:축하
#> 4 2005 축하:행사
#> 5 2005 행사:축하
#> 6 2005 축하:참석
#> 7 2005 참석:모두
#> 8 2005 모두:환영
#> 9 2005 환영:감사
#> 10 2005 감사:인사
#> # ℹ 1,749 more rows
# }