Previous: mnewdic.rb コーパスからの隣接単語ペア候補出力 Up: テキストマイニングコマンド FUMI
FUMI : テキストマイニングコマンド : mjumandic.rb CSVからJUMAN辞書への変換

2.5 mjumandic.rb CSVからJUMAN辞書への変換

CSVで与えられた辞書データを、JUMANの辞書に変換する。

CSVはテキストエディタを用いて記述しても構わないが、 mnewdic.rbコマンドが出力するCSVを利用することもできる。

2.5.1 書式

mjumandic.rb [i=] [O=] [exe=] [-mcmdenv] [--help]

i=

: CSVの辞書ファイル名

O=

: JUMANの辞書を格納するディレクトリ名

exe=

: makeint等のコマンドパス(デフォルトは/usr/local/bin)

 

JUMANを通常の方法でインストールすれば指定する必要はないはず。

-mcmdenv

: 内部で利用しているMCMDのメッセージ出力レベルを環境変数に任せる。

 

省略時は警告とエラーメッセージのみ出力(KG_VerboseLevel=2)。

--help

: ヘルプメッセージの表示

入力ファイル例

i=パラメータで与える辞書ファイルの例を示す。 見出し語、読み、品詞、カテゴリ、ドメイン の5項目があればよい。

id,見出し語,読み,品詞,カテゴリ,ドメイン
1,連結営業利益,れんけつえいぎょうりえき,普通名詞,抽象物,ビジネス
2,米国債,べいこくさい,,抽象物,ビジネス
3,上方修正,じょうほうしゅうせい,サ変名詞,抽象物,ビジネス
4,日本航空,にほんこうくう,組織名,,
5,夏目漱石,なつめそうせき,人名,日本,姓
6,安倍首相 安倍晋太郎 安倍晋太郎首相,あべしゅしょう,人名,日本,姓名

各項目の意味は以下の通りである。

見出し語

見出し語には、表記ゆれなどの複数の見出し語を半角空白で区切って列挙できる。 見出し語がないとエラーとなる。

品詞

品詞は名詞のみ対応しており、以下に示す名詞の下位の品詞を「品詞」項目に登録する。
普通名詞,サ変名詞,時相名詞,数詞,副詞的名詞,固有名詞,人名,組織名,地名
品詞が省略されると、「普通名詞」が指定されたものとする。 品詞の体系は以下のURLを参照のこと。 http://www.unixuser.org/~euske/doc/postag/

読み

読みがないとエラーとなる。

カテゴリ

カテゴリは以下の22種(省略可能)
人,組織・団体,動物,植物,動物-部位,植物-部位,人工物-食べ物,人工物-衣類,人工物-乗り物
人工物-金銭,人工物-その他,自然物,場所-施設,場所-施設部位,場所-自然,場所-機能
場所-その他,抽象物,形・模様,色,数量,時間

ドメイン

ドメインは以下の12種(省略可能)
文化・芸術,交通,レクリエーション,教育・学習,スポーツ,科学・技術,健康・医学
ビジネス,家庭・暮らし,メディア,料理・食事,政治

カテゴリとドメインは、普通名詞とサ変名詞にのみ有効な項目である。

カテゴリとドメインは、以下のURLを参考に登録する。わからなければ省略してもよい。

http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/knp/20090930-juman-knp.pptname=20090930-juman-knp.ppt

2.5.2 利用例

例1: 基本例

$ more dic1.csv
id,見出し語,読み,品詞,カテゴリ,ドメイン
1,連結営業利益,れんけつえいぎょうりえき,普通名詞,抽象物,ビジネス
2,米国債,べいこくさい,,抽象物,ビジネス
3,上方修正,じょうほうしゅうせい,サ変名詞,抽象物,ビジネス
4,日本航空,にほんこうくう,組織名,,
5,夏目漱石,なつめそうせき,人名,日本,姓
6,安倍首相 安倍晋太郎 安倍晋太郎首相,あべしゅしょう,人名,日本,姓名
7,2ちゃんねる にちゃんねる,にちゃんねる,,,
$ mjumandic.rb i=dic1.csv O=jumandic
#END# kgcut f=品詞,見出し語,読み i=dic1.csv
#END# kgdelnull f=見出し語,読み
#END# kgsortf f=見出し語
#END# kguniq k=見出し語 o=/tmp/__MTEMP_68157_70357348549040_0
#END# mcsvin i=/tmp/__MTEMP_68157_70357348549040_0
Mon Jul 28 01:38:37 2014
/usr/local/share/juman/dic/JUMAN.grammar parsing... done.

Mon Jul 28 01:38:37 2014
/usr/local/share/juman/dic/JUMAN.katuyou parsing... done.

Mon Jul 28 01:38:37 2014
/usr/local/share/juman/dic/jumandic.tab parsing... done.

jumandic.dic parsing... done.

execution time:    0.000s
processor time:    0.000s
File Name "/Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic/jumandic.dat"

## 10 entry  814 th char
Saving pat-tree "/Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic/jumandic.pat" 
QUIT
#MSG# jumandic内のjumandic.dat,jumandic.patの2つのファイルがユーザ辞書として必要となる。
#MSG# ~/.jumanrcファイルを編集し、これらのファイルが格納されたパス名を以下のように追加登録す
#MSG# (辞書ファイル
#MSG#         /usr/local/share/juman/dic
#MSG#         /usr/local/share/juman/autodic
#MSG#         /usr/local/share/juman/wikipediadic
#MSG#         /Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic
#MSG# )
#END# /Users/maegawa/.rvm/rubies/ruby-2.0.0-p247/bin/mjumandic.rb i=dic1.csv O=jumandic
$ ls jumandic
jumandic.dat
jumandic.dic
jumandic.int
jumandic.pat
$ more jumandic/jumandic.dic
(名詞 (サ変名詞 ((読み じょうほうしゅうせい) (見出し語 上方修正) (意味情報 "代表表記:上方修
(名詞 (人名 ((読み なつめそうせき) (見出し語 夏目漱石) (意味情報 ""))))
(名詞 (人名 ((読み あべしゅしょう) (見出し語 安倍首相 安倍晋太郎 安倍晋太郎首相) (意味情報 "
(名詞 (組織名 ((読み にほんこうくう) (見出し語 日本航空) (意味情報 "代表表記:日本航空/にほん
(名詞 (普通名詞 ((読み べいこくさい) (見出し語 米国債) (意味情報 "代表表記:米国債/べいこくさ
(名詞 (普通名詞 ((読み れんけつえいぎょうりえき) (見出し語 連結営業利益) (意味情報 "代表表記
(名詞 (普通名詞 ((読み にちゃんねる) (見出し語 2ちゃんねる にちゃんねる) (意味情報 "代表表
Previous: mnewdic.rb コーパスからの隣接単語ペア候補出力 Up: テキストマイニングコマンド FUMI