CentOS7にChaSenをインストール

(1)iconvの確認
$ iconv --version

(2)Dartsのインストール
http://chasen.org/~taku/software/darts/

$ tar zxvf darts-0.32.tar.gz
$ cd darts-0.32
$ ./configure
$ make
# make install

(3)ChaSenのインストール
http://sourceforge.jp/frs/redir.php?m=osdn&f=%2Fchasen-legacy%2F56305%2Fchasen-2.4.5.tar.gz

$ tar zxvf chasen-2.4.5.tar.gz
$ cd chasen-2.4.5
$ ./configure
$ make
# make install


(4)nkfのインストール
$ yum install epel-release
$ yum install nkf

(5)辞書のインストール
https://osdn.net/projects/ipadic/releases/

# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0




convert.sh
ーーーーーーーーーー
#!/bin/bash

for file in *.dic *.cha
do
  if [ -f $file ]
  then
    echo $file
    iconv -f euc-jp -t utf-8 $file > tmp.txt
    mv tmp.txt $file
  fi
done
ーーーーーーーーーーー


# ./configure
# bash ./convert.sh
# `chasen-config --mkchadic`/makemat -i w
# `chasen-config --mkchadic`/makeda -i w chadic *.dic
# make install

chasenrc文字コード変換
# cd /usr/local/etc/
# nkf –utf8 chasenrc > chasenrc.tmp
# mv chasenrc chasenrc.org
# mv chasenrc.tmp chasenrc


起動
test.txt
----
第九十条 公の秩序又は善良の風俗に反する事項を目的とする法律行為は、無効とする。
-----


$ time chasen -iw < test.txt
--------------------
第      ダイ    第      接頭詞-数接続
九      キュウ  九      名詞-数
十      ジュウ  十      名詞-数
条      ジョウ  条      名詞-接尾-助数詞
                     記号-空白
公      オオヤケ        公      名詞-一般
の      ノ      の      助詞-連体化
秩序    チツジョ        秩序    名詞-一般
又は    マタハ  又は    接続詞
善良    ゼンリョウ      善良    名詞-一般
の      ノ      の      助詞-連体化
風俗    フウゾク        風俗    名詞-一般
に      ニ      に      助詞-格助詞-一般
反する  ハンスル        反する  動詞-自立       サ変・-スル    基本形
事項    ジコウ  事項    名詞-一般
を      ヲ      を      助詞-格助詞-一般
目的    モクテキ        目的    名詞-一般
と      ト      と      助詞-格助詞-一般
する    スル    する    動詞-自立       サ変・スル      基本形
法律    ホウリツ        法律    名詞-一般
行為    コウイ  行為    名詞-サ変接続
は      ハ      は      助詞-係助詞
、      、      、      記号-読点
無効    ムコウ  無効    名詞-形容動詞語幹
と      ト      と      助詞-格助詞-一般
する    スル    する    動詞-自立       サ変・スル      基本形
。      。      。      記号-句点
EOS

real    0m1.799s
user    0m0.097s
sys     0m1.329s
---------------

コメント

人気の投稿