1.4. sspc 類似アイテムペア列挙¶
実装の詳細は sspcのオリジナル解説ページ を参照されたい。
パラメータ¶
type= : 型=str , 必須
* _:no message* +:write solutions in append mode* #:count the number of similar records for each record* i(inclusion): find pairs [ratio] of items (weighted sum) of one is included in the other (1st is included in 2nd)* I(both-inclusion): find pairs s.t. the size (weight sum) of intersection is [ratio] of both* S:set similarity measure to \(|A\cap B| / max{|A|,|B|}\)* s:set similarity measure to \(|A\cap B| / min{|A|,|B|}\)* T(intersection): find pairs having common [threshld] items* R(resemblance): find pairs s.t. \(|A\cap B|/|A\cup B| >= [threshld]\)* P(PMI): set similarity measure to \(log(|A\cap B|*|all| / (|A|*|B|))\) where \(|all|\) is the number of all items* C(cosign distance): find pairs s.t. inner product of their normalized vectors >= [threshld]* f,Q:output ratio/size of pairs following/preceding to the pairs* D:the first entry is ID, and unify the records with the same ID* N:normalize the ID of latter sets, in -c mode* n:do not consider a and b in the set when comparing a and b* Y(y):output elements of each set that contribute to no similarity (y:fast with much memory use)* 1:remove duplicated items in each transaction* t:transpose the database so that i-th transaction will be item i* E:input column-row representation* w:load weight of each item in each row (with E command)
i= : 型=str , 必須
トランザクションファイル名を指定する。
o= : 型=str , 必須
出力ファイル名を指定する。
th= : 型=float , 必須
type=
で指定した類似度の閾値を指定する。
K= : 型=int , 任意(default=制限なし)
output [num] pairs of most large similarities
k= : 型=int , 任意(default=制限なし)
output [num] elements of most large similarities, for each element
l= : 型=int , 任意(default=制限なし)
ignore transactions with size (weight sum) less than [num]
u= : 型=int , 任意(default=制限なし)
ignore transactions with size (weight sum) more than [num]
L= : 型=int , 任意(default=制限なし)
ignore items appearing less than [num]
U= : 型=int , 任意(default=制限なし)
ignore items appearing more than [num]
w= : 型=str , 任意(default=全トランザクションの重みは等しいものとする)
トランザクションの重みファイル名を指定する。
W= : 型=str , 任意(default=重みを使わない)
read item weights in each row from [filename]
c= : 型=int , 任意(default=制限なし)
compare transactions of IDs less than num and the others(if 0 is given, automatically set to the boundary of the 1st and 2nd file)ignore items appearing more than [num]
b= : 型=int , 任意(default=制限なし)
ignore pairs having no common item of at least [num]th frequency
B= : 型=int , 任意(default=制限なし)
ignore pairs having no common item of frequency at most [num]
T= : 型=int , 任意(default=制限なし)
ignore pairs whose intersection size is less than [num]
TT= : 型=int , 任意(default=制限なし)
T=
with outputting intersection size to the 1st column of each line
stop= : 型=int , 任意(default=制限なし)
ここで指定した数のパターンを出力したら停止する。
separator= : 型=str , 任意(default=スペース)
出力時のアイテムの区切り文字を指定する。
Q= : 型=str , 任意(default=replaceしない)
replace the output numbers according to the permutation table given by [filename]