NYSOL

超高速な大規模データ解析を
実現するソフトウェアツール

NYSOL makes it easier and faster to analyze big data.

NYSOLver2.4.2

※NYSOLは日本発のオープンソース(無料)です。
*NYSOL is open source software in Japan

LICENSE

最新情報NEWS

Back Number

NYSOLとはABOUT NYSOL

大規模データの解析に関する様々な大学やプロジェクトでの研究成果を
広く産業界に還元する目的で構築されたソフトウェアツールの総称およびそのプロジェクト活動である。
UNIX環境(Linux, Macなど)で動作する。

NYSOL is a generic name of software tools and project activities designed for industry-wide applications.
The tools are developed from various large-scale data analysis and university research projects.
This software runs in UNIX environment (Linux and Mac OS X).

「NYSOL」はアイヌ語で「雲」を意味します
NYSOL is a Ainu terminology which means “cloud”.

ソフトウェア一覧SOFTWARE LIST

MCMD(Mコマンド)

MCMD

大規模な表構造データ(CSVデータ)を効率よく処理する目的で開発されたオープンソースのコマンド群である。一般のPCでも数千万件〜数億件のCSVデータを処理できる。

M-Command is a set of open source commands developed to process large scale data structures (CSV data) efficiently. The commands can process more than 10 million records of CSV data on a regular PC.

for end user:

インストール (Install) 

PDFマニュアル (PDF Manual) HTMLマニュアル (HTML Manual)

チュートリアル (Tutorial)

for developper:

github MCMD

SOFTWARE

Take

Take

頻出パターンマイニングに関する各種コマンドを提供する。頻出アイテム集合、系列パターンについて、emerginパターンやtaxonomyを加味したパターン列挙が可能。コアアルゴリズムとしてLCMVSOPを利用している。

Includes a variety of commands for frequent pattern mining. Features such as emerging pattern and taxonomy are added for the enumeration of frequent item sets and sequential patterns. LCM and VSOP is used as the core algorithm.

for end user:

Install 

PDFマニュアル (PDF Manual)

for developper:

github take

SOFTWARE

ZDD

ZDD

本パッケージは、ZDD(Zero-suppressed Binary Decision Diagrams: ゼロサプレス型二分決定グラフ)を利用し、 重み付きのアイテムの組み合わせ集合をコンパクトに格納することを可能とするVSOP (Valued-Sum-Of-Products calculator)をruby拡張ライブラリとして実装したものである。

This package uses ZDD(Zero-suppressed Binary Decision Diagrams: BDD Zero-suppressed graph), weighted item sets can be stored in a compact structure with VSOP (Valued-Sum-Of-Products calculator), implemented as Ruby extension library.

for end user:

Install 

PDFマニュアル (PDF Manual) HTMLマニュアル (HTML Manual)

for developper:

github zdd

SOFTWARE

Mining

Mining

データマイニングや機械学習の手法を提供するパッケージで、大学の研究室で開発されたツールや統計パッケージRと連動したコマンドなどを提供する。

 

The Mining Command extends the functionality to implement experimental analysis technique in a relatively small scale.

 

for end user:

Install 

PDFマニュアル (PDF Manual)

for developper:

github mining

SOFTWARE

View

View

視覚化のコマンドを集めたパッケージで、GraphVizGephiで描画可能なグラフデータを構築したり、D3で描画可能な各種チャートを簡単に生成できるようにしたコマンドなどが含まれる。

A collection of visualization commands which allow users to build graph based data in GraphViz and Gephi. It is also possible to generate various charts with D3.

for end user:

Install 

PDFマニュアル (PDF Manual) HTMLマニュアル (HTML Manual)

for developper:

github view

SOFTWARE

Fumi

Fumi

テキストマイニング関連のコマンドを集めたパッケージで、jumanknpを用いた日本語文の形態素解析や構文解析に始まり、格フレームの抽出や辞書登録などを用意に実現できるようにしたパッケージである。

The package contains a collection of text mining-related commands which carries out parsing and morphological analysis of Japanese sentences with knp and Juman, and the command is capable of extracting from case frame and registering in the dictionary.fumi

for end user:

Install

PDFマニュアル  (PDF Manual) HTMLマニュアル (HTML Manual)

for developper:

github fumi

SOFTWARE

NYSOL Python

pythonでmcmdを利用するライブラリ

NYSOLをPython上で利用できるように改良したものが nysol_python ライブラリである。 現在のところ、nysol_pythonには、 データの前処理に威力を発揮するmcmdモジュールとアイテム集合マイニングに関する多様なツールを提供するTakeモジュールが含まれている。

for end user:

Install 

HTMLマニュアル

for developper:

github nysol_python

SOFTWARE

RubyM

RubyM

Ruby上で大規模なCSVデータを扱うためのRuby拡張ライブラリ。シーケンシャルな読み込み/ 書き込み関数、 そしてセル単位でのランダムアクセス関数などがある。いずれの関数もCSVの標準仕様であるRFC4180に概ね準拠しており カンマや改行を含む文字列も扱うことができる。

Ruby extension library is developed to process large-scale CSV data on Ruby. It includes sequential read (Mcsvin) and write (Mcsvout) functions, as well as random access to each cell within the CSV data table (Mtable). These functions treats newline and comma in strings according to the standard specification of CSV data compliant to RCF 4180.

for end user:

インストール 

PDFマニュアル (PDF Manual) HTMLマニュアル (HTML Manual)

for developper:

github rubym

SOFTWARE

KIZUNA

KIZUNA

KIZUNAはTAKEで開発されたパターンマイニング手法を利用して、相関ルールの可視化を行うアプリケーションである。可視化のためにFriendと呼ばれる膨大な相関ルールからノード間の関係性をうまく俯瞰できる指標を利用している。またWebbleを利用したユーザインターフェイスでKIZUNAの各種デモサイトが実行できます。

デモサイト (ID,Pass共にguest)

KIZUNAデモサイト

APP / TUTORIAL / DATA

Ekillion

Ekillion

JR大都市近郊区間内の経路を対象に、指定条件にあわせて全パスを高速列挙するアプリケーションである。パス列挙にはJST ERATO 湊離散構造処理系プロジェクトで開発された Graphillion を使っている。また新たにロンドンの路線を追加しました。

Ekillion is a web application that efficiently enumerates all JR train paths in Japan metropolitan and suburbs from startpoint to endpoint.The efficient enumeration of all paths is powered by the software Graphillion (Developed by JST ERATO Minato Discrete Structure Manipulation Project) which uses advanced algorithms to enumerate huge number of graphset.

for end user:

デモ (Demo) 実験結果 (Experimental Results)

APP / TUTORIAL / DATA

BONSAI

mbonsaiはオープンソースの決定木ソフトウェアで、コマンドラインにより実行できる。特徴は、説明変数の1つに文字列変数が利用でき、目的変数の分類に特徴的な文字列パターンを伴う決定木を構築することができることである。

mbonsai is an open sourced decision tree software. It lightweight and powerful which can be executable at command line. This version is a standalone release,

for end user:

What is mbonsai

APP / TUTORIAL / DATA

School

School

NYSOLパッケージのチュートリアル、Q&A、様々な応用スクリプトを公開していくことで、NYSOLの学習支援を行うことを目的としたサブプロジェクトである。

This sub-project includes publication of NYSOL package tutorial, Q&A, and various application scripts to extend learning support of NYSOL tools.

for end user:

マニュアル一覧 List of manuals

APP / TUTORIAL / DATA

KABU

ファイナンスに関する以下の研究成果を公開している。
株式市場における市場心理をニュース記事から測定する試み。
・取引コストやマーケットインパクトコストなどを考慮した株取引のシミュレーションプログラム。

M-Command is a set of open source commands developed to process large scale data structures (CSV data) efficiently. The commands can process more than 10 million records of CSV data on a regular PC.

for end user:

センチメント指数

APP / TUTORIAL / DATA

FUJI

準備中 / Under construction

APP / TUTORIAL / DATA

REKI

準備中 / Under construction

APP / TUTORIAL / DATA