2.5 mjumandic.rb Conversion from CSV to JUMAN Dictionary

Convert CSV dictionary data to JUMAN dictionary format.

The output from mnewdic.rb command is also in CSV format.

2.5.1 Format

mjumandic.rb [i=] [O=] [exe=] [-mcmdenv] [--help]

i=

: Dictionary file name of CSV file.

O=

: Directory name that contains the dictionary of JUMAN.

exe=

: Command path such as makein (Default: /usr/local/bin)

 

This is not required when JUMAN is installed with default setting.

-mcmdenv

: Display MCMD message containing environment variables.

 

Default returns warning and error message (KG_VerboseLevel=2).

--help

: Display help

Example of input file

An example of dictionary file defined at i= parameter is shown below. The 5 items includes headword, read, part of speech, category, domain.

id,見出し語,読み,品詞,カテゴリ,ドメイン
1,連結営業利益,れんけつえいぎょうりえき,普通名詞,抽象物,ビジネス
2,米国債,べいこくさい,,抽象物,ビジネス
3,上方修正,じょうほうしゅうせい,サ変名詞,抽象物,ビジネス
4,日本航空,にほんこうくう,組織名,,
5,夏目漱石,なつめそうせき,人名,日本,姓
6,安倍首相 安倍晋太郎 安倍晋太郎首相,あべしゅしょう,人名,日本,姓名

The meaning of each item is as follows.

見出し語

見出し語には、表記ゆれなどの複数の見出し語を半角空白で区切って列挙できる。 見出し語がないとエラーとなる。

品詞

品詞は名詞のみ対応しており、以下に示す名詞の下位の品詞を「品詞」項目に登録する。
普通名詞,サ変名詞,時相名詞,数詞,副詞的名詞,固有名詞,人名,組織名,地名
品詞が省略されると、「普通名詞」が指定されたものとする。 品詞の体系は以下のURLを参照のこと。 http://www.unixuser.org/~euske/doc/postag/

読み

読みがないとエラーとなる。

カテゴリ

カテゴリは以下の22種(省略可能)
人,組織・団体,動物,植物,動物-部位,植物-部位,人工物-食べ物,人工物-衣類,人工物-乗り物
人工物-金銭,人工物-その他,自然物,場所-施設,場所-施設部位,場所-自然,場所-機能
場所-その他,抽象物,形・模様,色,数量,時間

ドメイン

ドメインは以下の12種(省略可能)
文化・芸術,交通,レクリエーション,教育・学習,スポーツ,科学・技術,健康・医学
ビジネス,家庭・暮らし,メディア,料理・食事,政治

Category and domain is a valid item to common noun and word formed by adding suru to noun.

Please refer to the following URL for references on category and domain.

http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/knp/20090930-juman-knp.pptname=20090930-juman-knp.ppt

2.5.2 Examples

Example 1: Basic example

$ more dic1.csv
id,見出し語,読み,品詞,カテゴリ,ドメイン
1,連結営業利益,れんけつえいぎょうりえき,普通名詞,抽象物,ビジネス
2,米国債,べいこくさい,,抽象物,ビジネス
3,上方修正,じょうほうしゅうせい,サ変名詞,抽象物,ビジネス
4,日本航空,にほんこうくう,組織名,,
5,夏目漱石,なつめそうせき,人名,日本,姓
6,安倍首相 安倍晋太郎 安倍晋太郎首相,あべしゅしょう,人名,日本,姓名
7,2ちゃんねる にちゃんねる,にちゃんねる,,,
$ mjumandic.rb i=dic1.csv O=jumandic
#END# kgcut f=品詞,見出し語,読み i=dic1.csv
#END# kgdelnull f=見出し語,読み
#END# kgsortf f=見出し語
#END# kguniq k=見出し語 o=/tmp/__MTEMP_68157_70357348549040_0
#END# mcsvin i=/tmp/__MTEMP_68157_70357348549040_0
Mon Jul 28 01:38:37 2014
/usr/local/share/juman/dic/JUMAN.grammar parsing... done.

Mon Jul 28 01:38:37 2014
/usr/local/share/juman/dic/JUMAN.katuyou parsing... done.

Mon Jul 28 01:38:37 2014
/usr/local/share/juman/dic/jumandic.tab parsing... done.

jumandic.dic parsing... done.

execution time:    0.000s
processor time:    0.000s
File Name "/Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic/jumandic.dat"

## 10 entry  814 th char
Saving pat-tree "/Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic/jumandic.pat" 
QUIT
#MSG# jumandic内のjumandic.dat,jumandic.patの2つのファイルがユーザ辞書として必要となる。
#MSG# ~/.jumanrcファイルを編集し、これらのファイルが格納されたパス名を以下のように追加登録す
#MSG# (辞書ファイル
#MSG#         /usr/local/share/juman/dic
#MSG#         /usr/local/share/juman/autodic
#MSG#         /usr/local/share/juman/wikipediadic
#MSG#         /Users/maegawa/git/nysol/nysol/doc/fumi/jp/examples/jumandic
#MSG# )
#END# /Users/maegawa/.rvm/rubies/ruby-2.0.0-p247/bin/mjumandic.rb i=dic1.csv O=jumandic
$ ls jumandic
jumandic.dat
jumandic.dic
jumandic.int
jumandic.pat
$ more jumandic/jumandic.dic
(名詞 (サ変名詞 ((読み じょうほうしゅうせい) (見出し語 上方修正) (意味情報 "代表表記:上方修
(名詞 (人名 ((読み なつめそうせき) (見出し語 夏目漱石) (意味情報 ""))))
(名詞 (人名 ((読み あべしゅしょう) (見出し語 安倍首相 安倍晋太郎 安倍晋太郎首相) (意味情報 "
(名詞 (組織名 ((読み にほんこうくう) (見出し語 日本航空) (意味情報 "代表表記:日本航空/にほん
(名詞 (普通名詞 ((読み べいこくさい) (見出し語 米国債) (意味情報 "代表表記:米国債/べいこくさ
(名詞 (普通名詞 ((読み れんけつえいぎょうりえき) (見出し語 連結営業利益) (意味情報 "代表表記
(名詞 (普通名詞 ((読み にちゃんねる) (見出し語 2ちゃんねる にちゃんねる) (意味情報 "代表表