CSVで与えられた辞書データを、JUMANの辞書に変換する。
CSVはテキストエディタを用いて記述しても構わないが、 mnewdic.rbコマンドが出力するCSVを利用することもできる。
mjumandic.rb [i=] [O=] [exe=] [-mcmdenv] [--help]
i= : CSVの辞書ファイル名 O= : JUMANの辞書を格納するディレクトリ名 exe= : makeint等のコマンドパス(デフォルトは/usr/local/bin) JUMANを通常の方法でインストールすれば指定する必要はないはず。 -mcmdenv : 内部で利用しているMCMDのメッセージ出力レベルを環境変数に任せる。 省略時は警告とエラーメッセージのみ出力(KG_VerboseLevel=2)。 --help : ヘルプメッセージの表示
i=パラメータで与える辞書ファイルの例を示す。 見出し語、読み、品詞、カテゴリ、ドメイン の5項目があればよい。
id,見出し語,読み,品詞,カテゴリ,ドメイン 1,連結営業利益,れんけつえいぎょうりえき,普通名詞,抽象物,ビジネス 2,米国債,べいこくさい,,抽象物,ビジネス 3,上方修正,じょうほうしゅうせい,サ変名詞,抽象物,ビジネス 4,日本航空,にほんこうくう,組織名,, 5,夏目漱石,なつめそうせき,人名,日本,姓 6,安倍首相 安倍晋太郎 安倍晋太郎首相,あべしゅしょう,人名,日本,姓名
各項目の意味は以下の通りである。
見出し語には、表記ゆれなどの複数の見出し語を半角空白で区切って列挙できる。 見出し語がないとエラーとなる。
品詞は名詞のみ対応しており、以下に示す名詞の下位の品詞を「品詞」項目に登録する。
普通名詞,サ変名詞,時相名詞,数詞,副詞的名詞,固有名詞,人名,組織名,地名
品詞が省略されると、「普通名詞」が指定されたものとする。 品詞の体系は以下のURLを参照のこと。 http://www.unixuser.org/~euske/doc/postag/
読みがないとエラーとなる。
カテゴリは以下の22種(省略可能)
人,組織・団体,動物,植物,動物-部位,植物-部位,人工物-食べ物,人工物-衣類,人工物-乗り物
人工物-金銭,人工物-その他,自然物,場所-施設,場所-施設部位,場所-自然,場所-機能
場所-その他,抽象物,形・模様,色,数量,時間
ドメインは以下の12種(省略可能)
文化・芸術,交通,レクリエーション,教育・学習,スポーツ,科学・技術,健康・医学
ビジネス,家庭・暮らし,メディア,料理・食事,政治
カテゴリとドメインは、普通名詞とサ変名詞にのみ有効な項目である。
カテゴリとドメインは、以下のURLを参考に登録する。わからなければ省略してもよい。
$ more dic1.csv id,見出し語,読み,品詞,カテゴリ,ドメイン 1,連結営業利益,れんけつえいぎょうりえき,普通名詞,抽象物,ビジネス 2,米国債,べいこくさい,,抽象物,ビジネス 3,上方修正,じょうほうしゅうせい,サ変名詞,抽象物,ビジネス 4,日本航空,にほんこうくう,組織名,, 5,夏目漱石,なつめそうせき,人名,日本,姓 6,安倍首相 安倍晋太郎 安倍晋太郎首相,あべしゅしょう,人名,日本,姓名 7,2ちゃんねる にちゃんねる,にちゃんねる,,, $ mjumandic.rb i=dic1.csv O=jumandic #END# kgcut f=品詞,見出し語,読み i=dic1.csv #END# kgdelnull f=見出し語,読み #END# kgsortf f=見出し語 #END# kguniq k=見出し語 o=/tmp/__MTEMP_68157_70357348549040_0 #END# mcsvin i=/tmp/__MTEMP_68157_70357348549040_0 Mon Jul 28 01:38:37 2014 /usr/local/share/juman/dic/JUMAN.grammar parsing... done. Mon Jul 28 01:38:37 2014 /usr/local/share/juman/dic/JUMAN.katuyou parsing... done. Mon Jul 28 01:38:37 2014 /usr/local/share/juman/dic/jumandic.tab parsing... done. jumandic.dic parsing... done. execution time: 0.000s processor time: 0.000s File Name "/Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic/jumandic.dat" ## 10 entry 814 th char Saving pat-tree "/Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic/jumandic.pat" QUIT #MSG# jumandic内のjumandic.dat,jumandic.patの2つのファイルがユーザ辞書として必要となる。 #MSG# ~/.jumanrcファイルを編集し、これらのファイルが格納されたパス名を以下のように追加登録す #MSG# (辞書ファイル #MSG# /usr/local/share/juman/dic #MSG# /usr/local/share/juman/autodic #MSG# /usr/local/share/juman/wikipediadic #MSG# /Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic #MSG# ) #END# /Users/maegawa/.rvm/rubies/ruby-2.0.0-p247/bin/mjumandic.rb i=dic1.csv O=jumandic $ ls jumandic jumandic.dat jumandic.dic jumandic.int jumandic.pat $ more jumandic/jumandic.dic (名詞 (サ変名詞 ((読み じょうほうしゅうせい) (見出し語 上方修正) (意味情報 "代表表記:上方修 (名詞 (人名 ((読み なつめそうせき) (見出し語 夏目漱石) (意味情報 "")))) (名詞 (人名 ((読み あべしゅしょう) (見出し語 安倍首相 安倍晋太郎 安倍晋太郎首相) (意味情報 " (名詞 (組織名 ((読み にほんこうくう) (見出し語 日本航空) (意味情報 "代表表記:日本航空/にほん (名詞 (普通名詞 ((読み べいこくさい) (見出し語 米国債) (意味情報 "代表表記:米国債/べいこくさ (名詞 (普通名詞 ((読み れんけつえいぎょうりえき) (見出し語 連結営業利益) (意味情報 "代表表記 (名詞 (普通名詞 ((読み にちゃんねる) (見出し語 2ちゃんねる にちゃんねる) (意味情報 "代表表