get_plan_cost.Rd
낱말비용 기반의 토크나이저 플랜을 조회한다.
get_plan_cost(x, topn = 3, dic_path = NULL, userdic = NULL)
character. 플랜을 조회할 단어나 문장.
integer. 플랜을 조회한 후 표시할 상위 저비용 플랜 개수. 기본값은 3임.
character. mecab-ko-dic의 시스템 사전이 설치된 경로.
character. 사용자 사전. 경로와 이름을 기술함. 지정하지 않으면, bitNLP가 설치한 사전 경로를 사용한다.
tbl_df. 플랜을 담은 tibble 객체.
mecab-ko가 주어진 단어나 문장을 토크화(tokenization)하는 플랜을 조회한다. 이 기능을 통해서 사전에서의 단어 비용 조정과 신규 사용자 단어의 추가를 의사결정 할 수 있다. 우선 순위에 따른 10개의 플랜을 조회하며, 실제로 형태소분석기는 우선 순위가 1인 것으로 토큰화한다. 플랜 정보에서 변수는 다음과 같다.:
"우선순위" : 토큰화 우선 순위.
"표층형" : 토큰화되는 토큰
"품사태그" : 토큰의 품사.
"의미부류" : 인명, 혹은 지명과 같은 의미.
"좌문맥ID" : 좌문맥 ID.
"우문맥ID" : 우문맥 ID.
"낱말비용" : 가중치. 값은 낮을수록 가중치가 올라간다.
"연접비용" : 좌측에 공백 문자를 포함하는 품사의 연접 비용.
"누적비용" : 누적 낱말비용
if (FALSE) {
get_plan_cost("가면무도회")
}