1.1 概要

本「Fumi（文）」パッケージは、日本語のテキストマイニングに関する複数のコマンドから構成される。

データマイニングはこれまで、数値情報を中心とした定量的・定型的なデータを主に扱ってきた。しかし近年、コンピュータの性能向上やデータ分析技術の発展などにより、非定型的な情報を扱うことも可能となってきた。非定型情報の代表格が、「人が書いた文章」（自然言語）である。

本パッケージを用いると、日本語の形態素解析・構文解析を容易に実行することができる。その結果はCSVとして出力されるので、 Mコマンドによる各種の処理ができるため、さまざまな分析モデルに投入することが可能となる。

なお本パッケージでは、京都大学情報学研究科黒橋・河原研究室が開発する形態素解析システムJUMAN、構文解析システムKNPを用いている。 JUMANおよびKNPについての詳細は、以下の公式ページを参照のこと。