Welcome to the world of NYSOL!

NYSOL(「にそる」と読む*)とは

大規模データの解析に関する様々な大学やプロジェクトでの研究成果を

広く産業界に還元する目的で構築されたソフトウェアツールの総称およびそのプロジェクト活動である。

UNIX環境(Linux, Macなど)で動作する。


*「にそる」の語源はアイヌ語で「雲」である。本プロジェクトがERATO湊離散構造処理系プロジェクトへの参加をきっかけとして発足したことから、「北海道」と「クラウド時代」の二つの意味をかけている。

MCMD(Mコマンド)

大規模な表構造データ(CSVデータ)を効率よく処理する目的で開発されたオープンソースのコマンド群である。一般のPCでも数千万件〜数億件のCSVデータを処理できる。
ZDD

本パッケージは、ZDD(Zero-suppressed Binary Decision Diagrams: ゼロサプレス型二分決定グラフ)を利用し、 重み付きのアイテムの組み合わせ集合をコンパクトに格納することを可能とするVSOP (Valued-Sum-Of-Products calculator)をruby拡張ライブラリとして実装したものである。
 
Ekillion(えきりおん)

JR大都市近郊区間内の経路を対象に、指定条件にあわせて全パスを高速列挙するアプリケーションである。
パス列挙にはJST ERATO 湊離散構造処理系プロジェクトで開発された Graphillion を使っている。
RubyM
Ruby上で大規模なCSVデータを扱うためのRuby拡張ライブラリ。シーケンシャルな読み込み関数(Mcsvin)、 書き込み関数(Mcsvout)、 そしてセル単位でのランダムアクセス関数(Mtable)がある。 いずれの関数もCSVの標準仕様であるRFC4180に概ね準拠しており カンマや改行を含む文字列を扱うことができる。

TAKE
頻出パターンマイニングに関する各種コマンドを提供する。頻出アイテム集合、系列パターンについて、emerginパターンやtaxonomyを加味したパターン列挙が可能。コアアルゴリズムとしてLCMVSOPを利用している。
 BURST
HMMによ異常検知プログラム。定常とburstの2状態を仮定し、観測データから最尤推定により、状態推移系列を推定する。確率分布としては、指数分布、ポアソン分布、正規分布、二項分布を指定できる。rubyのネイティブコードでの実装のため、実行速度はさほど速くない。

Comments