낱말비용 기반의 토크나이저 플랜을 조회한다.

get_plan_cost(x, topn = 3, dic_path = NULL, userdic = NULL)

Arguments

x

character. 플랜을 조회할 단어나 문장.

topn

integer. 플랜을 조회한 후 표시할 상위 저비용 플랜 개수. 기본값은 3임.

dic_path

character. mecab-ko-dic의 시스템 사전이 설치된 경로.

userdic

character. 사용자 사전. 경로와 이름을 기술함. 지정하지 않으면, bitNLP가 설치한 사전 경로를 사용한다.

Value

tbl_df. 플랜을 담은 tibble 객체.

Details

mecab-ko가 주어진 단어나 문장을 토크화(tokenization)하는 플랜을 조회한다. 이 기능을 통해서 사전에서의 단어 비용 조정과 신규 사용자 단어의 추가를 의사결정 할 수 있다. 우선 순위에 따른 10개의 플랜을 조회하며, 실제로 형태소분석기는 우선 순위가 1인 것으로 토큰화한다. 플랜 정보에서 변수는 다음과 같다.:

  • "우선순위" : 토큰화 우선 순위.

  • "표층형" : 토큰화되는 토큰

  • "품사태그" : 토큰의 품사.

  • "의미부류" : 인명, 혹은 지명과 같은 의미.

  • "좌문맥ID" : 좌문맥 ID.

  • "우문맥ID" : 우문맥 ID.

  • "낱말비용" : 가중치. 값은 낮을수록 가중치가 올라간다.

  • "연접비용" : 좌측에 공백 문자를 포함하는 품사의 연접 비용.

  • "누적비용" : 누적 낱말비용

Examples

if (FALSE) {
get_plan_cost("가면무도회")
}