2.1. mitemset アイテム集合列挙¶

多頻度アイテム集合を列挙する。列挙のアルゴリズムにはlcmを用いている。以下のような特徴を持っている。

分類階層を扱うことが可能
頻出パターン, 飽和頻出パターン, 極大頻出パターンの3種類のパターンを列挙可能
分類クラスを指定することで、上記3パターンに関する顕在パターン(emerging patterns)を列挙可能

パラメータ¶

i= : 型=str , 必須

アイテム集合データベースファイル名を指定する。

O= : 型=str , 任意(default=./take_現在日付時刻)

出力ディレクトリ名を指定する。

x= : 型=str , 任意(default=階層分類を使わない)

taxonomyファイル名を指定する。

x=が指定されたとき、itemに対応するtaxonomyをトランザクションに追加して実行する。

例えば、アイテムa,bのtaxonomyをX、c,dのtaxonomyをYとすると、あるトランザクションabdはabdXYとなる。

ただしreplaceTaxoオプションが指定されると、taxonomyは追加ではなく置換して実行する。

前例ではトランザクションabdはXYに置換される。

tid= : 型=str , 任意(default=tid)

トランザクションID項目名(i=上の項目名)

item= : 型=str , 任意(default=item)

アイテム項目名(i=,t=上の項目名)

cls= : 型=str , 任意(default=class)

クラス項目名(i=上の項目名)

taxo= : 型=str , 条件付き必須(x=指定時)

type= : 型=str , 任意(default=F)

抽出するパターンの型(F,C,M)を指定する。

F:頻出集合, C:飽和集合, M:極大集合

s= : 型=float , 任意(default=0.05)

最小支持度(全トランザクション数に対する割合による指定)

S= : 型=int , 任意(default=1)

最小支持度(件数による指定)

s=,S=共に指定しなければ、s=0.05が指定されたことになる。

両方指定されれば、S=が優先される。

sx= : 型=float , 任意(default=1.0)

最大支持度(全トランザクション数に対する割合による指定)

Sx= : 型=bool , 任意(default=False)

最大支持度(件数による指定)

sx=,Sx=共に指定しなければ、sx=1.0が指定されたことになる。

両方指定されれば、Sx=が優先される。

l= : 型=int , 任意(default=制限なし)

パターンサイズ(アイテム数)の下限(1以上20以下の整数)

u= : 型=int , 任意(default=制限なし)

パターンサイズ(アイテム数)の上限(1以上20以下の整数)

p= : 型=float , 任意(default=0.5)

最小事後確率

g= : 型=float , 任意(default=制限なし)

最小増加率

p=,g=共に指定しなければ、p=0.5が指定されたことになる。

両方指定されれば、g=が優先される。

top= : 型=int , 任意(default=制限なし)

列挙するパターン数の上限を指定する。

例えばtop=10と指定すると、支持度が10番目高いパターンの支持度を最小支持度として頻出パターンを列挙する。

よって、同じ支持度のパターンが複数個ある場合は10個以上のパターンが列挙されるかもしれない。

replaceTaxo= : 型=bool , 任意(default=False)

taxonomyを置換する。

T= : 型=str , 任意(default=/tmp)

ワークディレクトリを指定する。

利用例¶

入力データの準備

with open('dat1.csv','w') as f:
  f.write(
'''tid,item
T1,C
T1,E
T2,D
T2,E
T2,F
T3,A
T3,B
T3,D
T3,F
T4,B
T4,D
T4,F
T5,A
T5,B
T5,D
T5,E
T6,A
T6,B
T6,D
T6,E
T6,F
''')

with open('dat2.csv','w') as f:
  f.write(
'''tid,item,class
T1,C,cls1
T1,E,cls1
T2,D,cls1
T2,E,cls1
T2,F,cls1
T3,A,cls1
T3,B,cls1
T3,D,cls1
T3,F,cls1
T4,B,cls1
T4,D,cls1
T4,F,cls1
T5,A,cls2
T5,B,cls2
T5,D,cls2
T5,E,cls2
T6,A,cls2
T6,B,cls2
T6,D,cls2
T6,E,cls2
T6,F,cls2
''')

with open('taxo.csv','w') as f:
  f.write(
'''item,taxonomy
A,X
B,X
C,Y
D,Z
E,Z
F,Z
''')

基本例

3件以上で出現する頻出アイテム集合を列挙する。

import nysol.take as nt
nt.mitemset(S=3,tid="tid",item="item",i="dat1.csv",O="result").run()
### result/patterns.csv の内容
# pid,size,count,total,support%0nr,lift,pattern
# 1,1,5,6,0.8333333333,1,D
# 7,2,4,6,0.6666666667,1.2,D F
# 6,1,4,6,0.6666666667,1,F
# 4,1,4,6,0.6666666667,1,E
# 2,1,4,6,0.6666666667,1,B
#  :
### result/tid_pats.csv の内容
# tid,pid
# T1,4
# T2,1
# T2,4
# T2,7
# T2,6
#  :

アイテム集合のサイズに制限を加えた例

出現頻度が3以上で、アイテム集合のサイズ3のパターンを列挙する。

import nysol.take as nt
nt.mitemset(S=3,l=3,u=3,tid="tid",item="item",i="dat1.csv",O="result").run()
### result/patterns.csv の内容
# pid,size,count,total,support%0nr,lift,pattern
# 0,3,3,6,0.5,1.35,B D F
# 1,3,3,6,0.5,1.8,A B D

飽和集合の列挙例

import nysol.take as nt
nt.mitemset(S=3,type="C",tid="tid",item="item",i="dat1.csv",O="result").run()
### result/patterns.csv の内容
# pid,size,count,total,support%0nr,lift,pattern
# 1,1,5,6,0.8333333333,1,D
# 2,2,4,6,0.6666666667,1.2,B D
# 3,1,4,6,0.6666666667,1,E
# 5,2,4,6,0.6666666667,1.2,D F
# 4,2,3,6,0.5,0.9,D E
#  :

極大集合の列挙例

import nysol.take as nt
nt.mitemset(S=3,type="M",tid="tid",item="item",i="dat1.csv",O="result").run()
### result/patterns.csv の内容
# pid,size,count,total,support%0nr,lift,pattern
# 0,2,3,6,0.5,0.9,D E
# 1,3,3,6,0.5,1.35,B D F
# 2,3,3,6,0.5,1.8,A B D

アイテムの階層分類を使った例

import nysol.take as nt
nt.mitemset(S=4,tid="tid",item="item",i="dat1.csv",x="taxo.csv",taxo="taxonomy",O="result").run()
### result/patterns.csv の内容
# pid,size,count,total,support%0nr,lift,pattern
# 1,1,6,6,1,1,Z
# 2,1,5,6,0.8333333333,1,D
# 19,2,4,6,0.6666666667,1.2,D X
# 13,2,4,6,0.6666666667,1,B Z
# 14,1,4,6,0.6666666667,1,X
#  :

オリジナルアイテムを階層分類で置換する例

import nysol.take as nt
nt.mitemset(S=4,tid="tid",item="item",i="dat1.csv",x="taxo.csv",taxo="taxonomy",replaceTaxo=True,O="result").run()
### result/patterns.csv の内容
# pid,size,count,total,support%0nr,lift,pattern
# 1,1,6,6,1,1,Z
# 2,1,4,6,0.6666666667,1,X
# 3,2,4,6,0.6666666667,1,X Z

顕在パターンの列挙例

import nysol.take as nt
nt.mitemset(S=2,tid="tid",item="item",cls="class",i="dat2.csv",p=0.6,O="result").run()
### result/patterns.csv の内容
# class%0nr,pid,pattern,size,pos%2nr,neg,posTotal,negTotal,total,support,growthRate,postProb%1nr
# cls2,18,B D E,3,2,0,2,4,6,1,inf,1
# cls2,14,B E,2,2,0,2,4,6,1,inf,1
# cls2,13,A E,2,2,0,2,4,6,1,inf,1
# cls2,17,A D E,3,2,0,2,4,6,1,inf,1
# cls2,15,A B E,3,2,0,2,4,6,1,inf,1
#  :

2.1. mitemset アイテム集合列挙¶

パラメータ¶

利用例¶

関連メソッド¶