명사를 추출하여 n-gram으로 토큰화합니다.

tokenize_noun_ngrams(
  x,
  n = 3L,
  n_min = n,
  stopwords = character(),
  ngram_delim = " ",
  simplify = FALSE,
  type = c("noun", "noun2"),
  user_dic = NULL
)

Arguments

x

character. 토큰화할 문자열 벡터

n

integer. n-gram의 단어 수입니다. 1 이상의 정수.

n_min

integer. 이것은 1보다 크거나 같고 n보다 작거나 같은 정수여야 함

stopwords

character. n-그램에서 제외할 불용어의 문자형 벡터

ngram_delim

character. 생성된 n-gram에서 단어 사이의 구분 기호

simplify

logical. 기본값은 FALSE로 입력 길이에 관계없이 일관된 값이 반환되도록 list 객체로 반환. TRUE인 경우 x가 단일 값일경우에는 문자 벡터를 반환

Value

토큰화된 character 벡터를 성분으로 갖는 list. simplify값이 TRUE이고 x가 단일값일 때에는 character 벡터

Examples

# \donttest{
tokenize_noun_ngrams(president_speech$doc[1:2])
#> [[1]]
#>   [1] "우정 해 개막식"       "해 개막식 축하"       "개막식 축하 행사"    
#>   [4] "축하 행사 축하"       "행사 축하 참석"       "축하 참석 모두"      
#>   [7] "참석 모두 환영"       "모두 환영 감사"       "환영 감사 인사"      
#>  [10] "감사 인사 전"         "인사 전 이웃"         "전 이웃 옛날"        
#>  [13] "이웃 옛날 이웃"       "옛날 이웃 이웃"       "이웃 이웃 사정"      
#>  [16] "이웃 사정 통신"       "사정 통신 사절"       "통신 사절 시절"      
#>  [19] "사절 시절 도쿄"       "시절 도쿄 7"          "도쿄 7 연락선"       
#>  [22] "7 연락선 시대"        "연락선 시대 7"        "시대 7 일"           
#>  [25] "7 일 항공기"          "일 항공기 하루"       "항공기 하루 안"      
#>  [28] "하루 안 시대"         "안 시대 교통"         "시대 교통 발달"      
#>  [31] "교통 발달 통신"       "발달 통신 관계"       "통신 관계 경제"      
#>  [34] "관계 경제 교류"       "경제 교류 말"         "교류 말 긴밀"        
#>  [37] "말 긴밀 협력"         "긴밀 협력 국음"       "협력 국음 마음"      
#>  [40] "국음 마음 실행"       "마음 실행 가공"       "실행 가공 과학"      
#>  [43] "가공 과학 기술"       "과학 기술 옛날"       "기술 옛날 사이"      
#>  [46] "옛날 사이 불편"       "사이 불편 문제"       "불편 문제 생각"      
#>  [49] "문제 생각 상황"       "생각 상황 양국"       "상황 양국 관계"      
#>  [52] "양국 관계 불편"       "관계 불편 생존"       "불편 생존 자체"      
#>  [55] "생존 자체 위협"       "자체 위협 사이"       "위협 사이 유감"      
#>  [58] "사이 유감 친구"       "유감 친구 방법"       "친구 방법 관계"      
#>  [61] "방법 관계 숙명"       "관계 숙명 친구"       "숙명 친구 관계"      
#>  [64] "친구 관계 친구"       "관계 친구 친구"       "친구 친구 미래"      
#>  [67] "친구 미래 적극"       "미래 적극 친구"       "적극 친구 손"        
#>  [70] "친구 손 불행"         "손 불행 평화"         "불행 평화 번영"      
#>  [73] "평화 번영 미래"       "번영 미래 관계"       "미래 관계 자리"      
#>  [76] "관계 자리 양국"       "자리 양국 관계"       "양국 관계 도로"      
#>  [79] "관계 도로 표현"       "도로 표현 전"         "표현 전 경제"        
#>  [82] "전 경제 도로"         "경제 도로 고속도"     "도로 고속도 수준"    
#>  [85] "고속도 수준 정치"     "수준 정치 안보"       "정치 안보 측면"      
#>  [88] "안보 측면 협력"       "측면 협력 도로"       "협력 도로 활발"      
#>  [91] "도로 활발 개통"       "활발 개통 문화"       "개통 문화 도로"      
#>  [94] "문화 도로 길"         "도로 길 길"           "길 길 위"            
#>  [97] "길 위 장애물"         "위 장애물 양국"       "장애물 양국 협력"    
#> [100] "양국 협력 관계"       "협력 관계 고속도로"   "관계 고속도로 장애물"
#> [103] "고속도로 장애물 직시" "장애물 직시 양국"     "직시 양국 정부"      
#> [106] "양국 정부 국민"       "정부 국민 적극"       "국민 적극 노력"      
#> [109] "적극 노력 가슴"       "노력 가슴 우정"       "가슴 우정 불"        
#> [112] "우정 불 자리"         "불 자리 우정"         "자리 우정 불"        
#> [115] "우정 불 양국"         "불 양국 국민"         "양국 국민 사이"      
#> [118] "국민 사이 우정"       "사이 우정 따뜻"       "우정 따뜻 계기"      
#> [121] "따뜻 계기 이틀"       "계기 이틀 전"         "이틀 전 도쿄"        
#> [124] "전 도쿄 주최"         "도쿄 주최 행사"       "주최 행사 성공"      
#> [127] "행사 성공 성원"       "성공 성원 참석"       "성원 참석 격려"      
#> [130] "참석 격려 총리"       "격려 총리 국민"       "총리 국민 자리"      
#> [133] "국민 자리 감사"       "자리 감사 올해"       "감사 올해 양국"      
#> [136] "올해 양국 수교"       "양국 수교 주년"       "수교 주년 맞이"      
#> [139] "주년 맞이 해"         "맞이 해 일"           "해 일 양국"          
#> [142] "일 양국 우정"         "양국 우정 성공"       "우정 성공 때"        
#> [145] "성공 때 보람"         "때 보람 생각"         "보람 생각 올해"      
#> [148] "생각 올해 이전"       "올해 이전 활발"       "이전 활발 양국"      
#> [151] "활발 양국 국민"       "양국 국민 교류"       "국민 교류 국민"      
#> [154] "교류 국민 교류"       "국민 교류 해"         "교류 해 감사"        
#> 
#> [[2]]
#>  [1] "7 년 각하"          "년 각하 국민"       "각하 국민 신년"    
#>  [4] "국민 신년 인사"     "신년 인사 새해"     "인사 새해 축복"    
#>  [7] "새해 축복 해"       "축복 해 기원"       "해 기원 올해"      
#> [10] "기원 올해 양국"     "올해 양국 관계"     "양국 관계 발전"    
#> [13] "관계 발전 획기"     "발전 획기 전기"     "획기 전기 중"      
#> [16] "전기 중 교류"       "중 교류 해"         "교류 해 경제"      
#> [19] "해 경제 학술"       "경제 학술 문화"     "학술 문화 체육"    
#> [22] "문화 체육 청소년"   "체육 청소년 분야"   "청소년 분야 행사"  
#> [25] "분야 행사 본격"     "행사 본격 국민"     "본격 국민 교류"    
#> [28] "국민 교류 협력"     "교류 협력 시대"     "협력 시대 나라"    
#> [31] "시대 나라 교역"     "나라 교역 상대국"   "교역 상대국 투자"  
#> [34] "상대국 투자 대상국" "투자 대상국 한국인" "대상국 한국인 방문"
#> [37] "한국인 방문 서로"   "방문 서로 문화"     "서로 문화 이웃"    
#> [40] "문화 이웃 양국"     "이웃 양국 우호"     "양국 우호 협력"    
#> [43] "우호 협력 올해"     "협력 올해 교류"     "올해 교류 행사"    
#> [46] "교류 행사 강화"     "행사 강화 년"       "강화 년 각하"      
#> [49] "년 각하 합의"       "각하 합의 전면"     "합의 전면 협력"    
#> [52] "전면 협력 동반자"   "협력 동반자 관계"   "동반자 관계 심화"  
#> [55] "관계 심화 평화"     "심화 평화 공동"     "평화 공동 번영"    
#> [58] "공동 번영 미래"     "번영 미래 기대"     "미래 기대 각하"    
#> [61] "기대 각하 건강"     "각하 건강 무궁"     "건강 무궁 발전"    
#> [64] "무궁 발전 기원"    
#> 

# simplify = TRUE
tokenize_noun_ngrams(president_speech$doc[1], simplify = TRUE)
#>   [1] "우정 해 개막식"       "해 개막식 축하"       "개막식 축하 행사"    
#>   [4] "축하 행사 축하"       "행사 축하 참석"       "축하 참석 모두"      
#>   [7] "참석 모두 환영"       "모두 환영 감사"       "환영 감사 인사"      
#>  [10] "감사 인사 전"         "인사 전 이웃"         "전 이웃 옛날"        
#>  [13] "이웃 옛날 이웃"       "옛날 이웃 이웃"       "이웃 이웃 사정"      
#>  [16] "이웃 사정 통신"       "사정 통신 사절"       "통신 사절 시절"      
#>  [19] "사절 시절 도쿄"       "시절 도쿄 7"          "도쿄 7 연락선"       
#>  [22] "7 연락선 시대"        "연락선 시대 7"        "시대 7 일"           
#>  [25] "7 일 항공기"          "일 항공기 하루"       "항공기 하루 안"      
#>  [28] "하루 안 시대"         "안 시대 교통"         "시대 교통 발달"      
#>  [31] "교통 발달 통신"       "발달 통신 관계"       "통신 관계 경제"      
#>  [34] "관계 경제 교류"       "경제 교류 말"         "교류 말 긴밀"        
#>  [37] "말 긴밀 협력"         "긴밀 협력 국음"       "협력 국음 마음"      
#>  [40] "국음 마음 실행"       "마음 실행 가공"       "실행 가공 과학"      
#>  [43] "가공 과학 기술"       "과학 기술 옛날"       "기술 옛날 사이"      
#>  [46] "옛날 사이 불편"       "사이 불편 문제"       "불편 문제 생각"      
#>  [49] "문제 생각 상황"       "생각 상황 양국"       "상황 양국 관계"      
#>  [52] "양국 관계 불편"       "관계 불편 생존"       "불편 생존 자체"      
#>  [55] "생존 자체 위협"       "자체 위협 사이"       "위협 사이 유감"      
#>  [58] "사이 유감 친구"       "유감 친구 방법"       "친구 방법 관계"      
#>  [61] "방법 관계 숙명"       "관계 숙명 친구"       "숙명 친구 관계"      
#>  [64] "친구 관계 친구"       "관계 친구 친구"       "친구 친구 미래"      
#>  [67] "친구 미래 적극"       "미래 적극 친구"       "적극 친구 손"        
#>  [70] "친구 손 불행"         "손 불행 평화"         "불행 평화 번영"      
#>  [73] "평화 번영 미래"       "번영 미래 관계"       "미래 관계 자리"      
#>  [76] "관계 자리 양국"       "자리 양국 관계"       "양국 관계 도로"      
#>  [79] "관계 도로 표현"       "도로 표현 전"         "표현 전 경제"        
#>  [82] "전 경제 도로"         "경제 도로 고속도"     "도로 고속도 수준"    
#>  [85] "고속도 수준 정치"     "수준 정치 안보"       "정치 안보 측면"      
#>  [88] "안보 측면 협력"       "측면 협력 도로"       "협력 도로 활발"      
#>  [91] "도로 활발 개통"       "활발 개통 문화"       "개통 문화 도로"      
#>  [94] "문화 도로 길"         "도로 길 길"           "길 길 위"            
#>  [97] "길 위 장애물"         "위 장애물 양국"       "장애물 양국 협력"    
#> [100] "양국 협력 관계"       "협력 관계 고속도로"   "관계 고속도로 장애물"
#> [103] "고속도로 장애물 직시" "장애물 직시 양국"     "직시 양국 정부"      
#> [106] "양국 정부 국민"       "정부 국민 적극"       "국민 적극 노력"      
#> [109] "적극 노력 가슴"       "노력 가슴 우정"       "가슴 우정 불"        
#> [112] "우정 불 자리"         "불 자리 우정"         "자리 우정 불"        
#> [115] "우정 불 양국"         "불 양국 국민"         "양국 국민 사이"      
#> [118] "국민 사이 우정"       "사이 우정 따뜻"       "우정 따뜻 계기"      
#> [121] "따뜻 계기 이틀"       "계기 이틀 전"         "이틀 전 도쿄"        
#> [124] "전 도쿄 주최"         "도쿄 주최 행사"       "주최 행사 성공"      
#> [127] "행사 성공 성원"       "성공 성원 참석"       "성원 참석 격려"      
#> [130] "참석 격려 총리"       "격려 총리 국민"       "총리 국민 자리"      
#> [133] "국민 자리 감사"       "자리 감사 올해"       "감사 올해 양국"      
#> [136] "올해 양국 수교"       "양국 수교 주년"       "수교 주년 맞이"      
#> [139] "주년 맞이 해"         "맞이 해 일"           "해 일 양국"          
#> [142] "일 양국 우정"         "양국 우정 성공"       "우정 성공 때"        
#> [145] "성공 때 보람"         "때 보람 생각"         "보람 생각 올해"      
#> [148] "생각 올해 이전"       "올해 이전 활발"       "이전 활발 양국"      
#> [151] "활발 양국 국민"       "양국 국민 교류"       "국민 교류 국민"      
#> [154] "교류 국민 교류"       "국민 교류 해"         "교류 해 감사"        

str <- "신혼부부나 주말부부는 놀이공원 자유이용권을 즐겨 구매합니다."

tokenize_noun_ngrams(str)
#> [[1]]
#> [1] "신혼 부부 주말"     "부부 주말 부부"     "주말 부부 놀이공원"
#> [4] "부부 놀이공원 자유" "놀이공원 자유 이용" "자유 이용 구매"    
#> 

# 불용어 처리
tokenize_noun_ngrams(str, stopwords = "구매")
#> [[1]]
#> [1] "신혼 부부 주말"     "부부 주말 부부"     "주말 부부 놀이공원"
#> [4] "부부 놀이공원 자유" "놀이공원 자유 이용"
#> 
 
# 사용자 정의 사전 사용
dic_path <- system.file("dic", package = "bitTA")
dic_file <- glue::glue("{dic_path}/buzz_dic.dic")
tokenize_noun_ngrams(str, simplify = TRUE, user_dic = dic_file)
#> [1] "신혼부부 주말부부 놀이공원"   "주말부부 놀이공원 자유이용권"
#> [3] "놀이공원 자유이용권 구매"    

# n_min
tokenize_noun_ngrams(str, n_min = 1, user_dic = dic_file)
#> [[1]]
#>  [1] "신혼부부"                     "신혼부부 주말부부"           
#>  [3] "신혼부부 주말부부 놀이공원"   "주말부부"                    
#>  [5] "주말부부 놀이공원"            "주말부부 놀이공원 자유이용권"
#>  [7] "놀이공원"                     "놀이공원 자유이용권"         
#>  [9] "놀이공원 자유이용권 구매"     "자유이용권"                  
#> [11] "자유이용권 구매"              "구매"                        
#> 

# ngram_delim
tokenize_noun_ngrams(str, ngram_delim = ":", user_dic = dic_file)
#> [[1]]
#> [1] "신혼부부:주말부부:놀이공원"   "주말부부:놀이공원:자유이용권"
#> [3] "놀이공원:자유이용권:구매"    
#> 
# }