本「Fumi(文)」パッケージは、日本語のテキストマイニングに関する 複数のコマンドから構成される。
データマイニングはこれまで、 数値情報を中心とした定量的・定型的なデータを主に扱ってきた。 しかし近年、コンピュータの性能向上やデータ分析技術の発展などにより、 非定型的な情報を扱うことも可能となってきた。 非定型情報の代表格が、「人が書いた文章」(自然言語)である。
本パッケージを用いると、日本語の形態素解析・構文解析を 容易に実行することができる。その結果はCSVとして出力されるので、 Mコマンドによる各種の処理ができるため、さまざまな分析モデルに 投入することが可能となる。
なお本パッケージでは、京都大学情報学研究科 黒橋・河原研究室が開発する 形態素解析システムJUMAN、構文解析システムKNPを用いている。 JUMANおよびKNPについての詳細は、以下の公式ページを参照のこと。
形態素解析システムJUMAN http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN
構文解析システムKNP http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP