2 . 메카브(MeCab) 설치

빠르면서 성능이 좋다고 알려진 메카드(MeCab) 형태소 분석기를 설치한다.

MeCab 설치과정

2.1

MeCab 설치과정은 가장먼저 MeCab 설치부터 시작한다. 일본에서 제작했기 때문에 RMeCaB 패키지를 설치하면 일본어 형태소 분석 작업을 바로 시작할 수 있다. 한글을 형태소 분석하기 위해서는 은전한닢(mecab-ko)를 설치한 후에 R에서 사용할 수 있도록 개발중인 bitTA 패키지를 설치하면 된다.

2.1.1 MeCab 설치

GitHub Installation of RMeCab 1.07 on M1 Mac #13 에 자세한 사항이 나와 있지만 간략하게 정리하면 다음과 같다.

## xcode 설치되면 생략 ----- 
$ xcode-select --install

## MeCab 설치 --------------
$ cd ~/Downloads
$ curl -fsSL 'https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE'  -o mecab-0.996.tar.gz
$ tar xf mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure --with-charset=utf8
$ make
$ sudo make install

## MeCab 사전 설치 --------------
$ cd ~/Downloads
$ curl -fsSL 'https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM'  -o mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zvxf mecab-ipadic-2.7.0-20070801.tar.gz
$ tar xf mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf-8
$ make
$ sudo make install

## MeCab 설치 테스트 --------------
$ mecab
すもももももももものうち

2.1.2 RMeCab 설치 (생략)

RMeCab GitHub 저장소에 설치사항을 정리하여 보면 MeCab와 사전을 설치한 후에 install.packages() 에 RMeCab 패키지 저장소를 달리 지정하여 설치하면 된다.

install.packages("RMeCab", repos = "https://rmecab.jp/R", type = "source") 

library(RMeCab)
res <- RMeCabC("すもももももももものうち")
unlist (res)
# 名詞     助詞     名詞     助詞     名詞     助詞     名詞 
# "すもも"     "も"   "もも"     "も"   "もも"     "の"   "うち" 

2.1.3 MeCab-ko 설치

일본어 MeCab 설치과정과 동일하게 한국어 MeCab-ko를 설치한다.

  • Bitbucket eunjeon/mecab-ko 저장소에서 mecab-ko 최신버전을 다운로드 한다.
  • Bitbucket eunjeon/mecab-ko-dic 저장소에서 mecab-ko-dic 사전 최신버전을 다운로드 한다.
# MeCab-ko 설치 ------------
$ cd ~/Downloads
$ curl -fsSL 'https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz' -o mecab-0.996-ko-0.9.2.tar.gz
$ tar xzvf mecab-0.996-ko-0.9.2.tar.gz
$ cd mecab-0.996-ko-0.9.2
$ ./configure --with-charset=utf-8
$ make
$ sudo make install

# MeCab-ko-dic 사전 설치 ------------
$ cd ~/Downloads
$ curl -fsSL 'https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz' -o mecab-ko-dic-2.1.1-20180720.tar.gz
$ cd mecab-ko-dic-2.1.1-20180720
$ ./configure --with-charset=utf-8
$ make
$ sudo make install

2.1.4 bitTA 설치

# remotes::install_github("bit2r/bitTA")
# 
# library(bitTA)
# 
# morpho_mecab("아버지가 방에 들어가신다.")
# #>      NNG      NNG 
# #> "아버지"     "방"

2.2 윈도우

MeCab 설치 이슈 참조

# library(bitTA)
# 
# morpho_mecab("아버지가 방에 들어가신다.")