1.4. sspc 類似アイテムペア列挙

実装の詳細は sspcのオリジナル解説ページ を参照されたい。

パラメータ

type= : 型=str , 必須

* _:no message
* +:write solutions in append mode
* #:count the number of similar records for each record
* i(inclusion): find pairs [ratio] of items (weighted sum) of one is included in the other (1st is included in 2nd)
* I(both-inclusion): find pairs s.t. the size (weight sum) of intersection is [ratio] of both
* S:set similarity measure to \(|A\cap B| / max{|A|,|B|}\)
* s:set similarity measure to \(|A\cap B| / min{|A|,|B|}\)
* T(intersection): find pairs having common [threshld] items
* R(resemblance): find pairs s.t. \(|A\cap B|/|A\cup B| >= [threshld]\)
* P(PMI): set similarity measure to \(log(|A\cap B|*|all| / (|A|*|B|))\) where \(|all|\) is the number of all items
* C(cosign distance): find pairs s.t. inner product of their normalized vectors >= [threshld]
* f,Q:output ratio/size of pairs following/preceding to the pairs
* D:the first entry is ID, and unify the records with the same ID
* N:normalize the ID of latter sets, in -c mode
* n:do not consider a and b in the set when comparing a and b
* Y(y):output elements of each set that contribute to no similarity (y:fast with much memory use)
* 1:remove duplicated items in each transaction
* t:transpose the database so that i-th transaction will be item i
* E:input column-row representation
* w:load weight of each item in each row (with E command)

i= : 型=str , 必須

トランザクションファイル名を指定する。

o= : 型=str , 必須

出力ファイル名を指定する。

th= : 型=float , 必須

type= で指定した類似度の閾値を指定する。

K= : 型=int , 任意(default=制限なし)

output [num] pairs of most large similarities

k= : 型=int , 任意(default=制限なし)

output [num] elements of most large similarities, for each element

l= : 型=int , 任意(default=制限なし)

ignore transactions with size (weight sum) less than [num]

u= : 型=int , 任意(default=制限なし)

ignore transactions with size (weight sum) more than [num]

L= : 型=int , 任意(default=制限なし)

ignore items appearing less than [num]

U= : 型=int , 任意(default=制限なし)

ignore items appearing more than [num]

w= : 型=str , 任意(default=全トランザクションの重みは等しいものとする)

トランザクションの重みファイル名を指定する。

W= : 型=str , 任意(default=重みを使わない)

read item weights in each row from [filename]

c= : 型=int , 任意(default=制限なし)

compare transactions of IDs less than num and the others
(if 0 is given, automatically set to the boundary of the 1st and 2nd file)
ignore items appearing more than [num]

b= : 型=int , 任意(default=制限なし)

ignore pairs having no common item of at least [num]th frequency

B= : 型=int , 任意(default=制限なし)

ignore pairs having no common item of frequency at most [num]

T= : 型=int , 任意(default=制限なし)

ignore pairs whose intersection size is less than [num]

TT= : 型=int , 任意(default=制限なし)

T= with outputting intersection size to the 1st column of each line

stop= : 型=int , 任意(default=制限なし)

ここで指定した数のパターンを出力したら停止する。

separator= : 型=str , 任意(default=スペース)

出力時のアイテムの区切り文字を指定する。

Q= : 型=str , 任意(default=replaceしない)

replace the output numbers according to the permutation table given by [filename]

利用例

関連メソッド