2 . 메카브(MeCab) 설치
빠르면서 성능이 좋다고 알려진 메카드(MeCab) 형태소 분석기를 설치한다.
2.1 맥
MeCab 설치과정은 가장먼저 MeCab 설치부터 시작한다. 일본에서 제작했기 때문에 RMeCaB 패키지를 설치하면 일본어 형태소 분석 작업을 바로 시작할 수 있다. 한글을 형태소 분석하기 위해서는 은전한닢(mecab-ko)를 설치한 후에 R에서 사용할 수 있도록 개발중인 bitTA 패키지를 설치하면 된다.
2.1.1 MeCab 설치
GitHub Installation of RMeCab 1.07 on M1 Mac #13 에 자세한 사항이 나와 있지만 간략하게 정리하면 다음과 같다.
## xcode 설치되면 생략 -----
$ xcode-select --install
## MeCab 설치 --------------
$ cd ~/Downloads
$ curl -fsSL 'https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE' -o mecab-0.996.tar.gz
$ tar xf mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure --with-charset=utf8
$ make
$ sudo make install
## MeCab 사전 설치 --------------
$ cd ~/Downloads
$ curl -fsSL 'https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM' -o mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zvxf mecab-ipadic-2.7.0-20070801.tar.gz
$ tar xf mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf-8
$ make
$ sudo make install
## MeCab 설치 테스트 --------------
$ mecab
すもももももももものうち
2.1.2 RMeCab 설치 (생략)
RMeCab GitHub 저장소에 설치사항을
정리하여 보면 MeCab와 사전을 설치한 후에 install.packages()
에 RMeCab 패키지
저장소를 달리 지정하여 설치하면 된다.
install.packages("RMeCab", repos = "https://rmecab.jp/R", type = "source")
library(RMeCab)
res <- RMeCabC("すもももももももものうち")
unlist (res)
# 名詞 助詞 名詞 助詞 名詞 助詞 名詞
# "すもも" "も" "もも" "も" "もも" "の" "うち"
2.1.3 MeCab-ko 설치
일본어 MeCab
설치과정과 동일하게 한국어 MeCab-ko
를 설치한다.
- Bitbucket eunjeon/mecab-ko 저장소에서
mecab-ko
최신버전을 다운로드 한다. - Bitbucket eunjeon/mecab-ko-dic 저장소에서
mecab-ko-dic
사전 최신버전을 다운로드 한다.
# MeCab-ko 설치 ------------
$ cd ~/Downloads
$ curl -fsSL 'https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz' -o mecab-0.996-ko-0.9.2.tar.gz
$ tar xzvf mecab-0.996-ko-0.9.2.tar.gz
$ cd mecab-0.996-ko-0.9.2
$ ./configure --with-charset=utf-8
$ make
$ sudo make install
# MeCab-ko-dic 사전 설치 ------------
$ cd ~/Downloads
$ curl -fsSL 'https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz' -o mecab-ko-dic-2.1.1-20180720.tar.gz
$ cd mecab-ko-dic-2.1.1-20180720
$ ./configure --with-charset=utf-8
$ make
$ sudo make install