5. ランク情報に基づく相関ルール分析¶

相関ルール分析は、データマイニングの分野で代表的な分析手法で、特にルールを高速に列挙する技術は飛躍的な進展を遂げてきた。しかしながら、パラメータの設定次第では時に大量のルールが出力され、そこから興味深いルールを抽出するまでにユーザに多大な負担を強いることも少なくない。

この問題を解決する一つの方法として相互ランク情報に基づいたルールの抽出方法が提案されている 1 。 Takeモジュールでは、 mfriends 及び mpal メソッドとして実装されている。この手法の特徴は、相関ルール列挙において2アイテムルール \(A=>B(|A|=1,|B|=1)\) のみを列挙し、そこから \(A,B\) 相互に関連の強いルールを選択するというものである。 \(A=>B\) 及び \(B=>A\) の評価指標(supportやconfidence)が、それぞれの前件部を共通としてもつルール集合の中でユーザが指定した k 位以内であるとき、アイテム集合 \(A\) と \(B\) の関連が強いと考える。

5.1. 入力データと出力データ¶

表 5.18 に本課題で利用する入力データ onlineRetail2.csv のサンプルを示している。このファイルは、オンラインストア購買データで作成したデータセットである。スクリプトを保存するディレクトリに保存しておく。本分析を進めるにあたって必要となる項目は、顧客IDの InvoiceNo と StockCode の2項目のみである。 InvoiceNo はトランザクション識別のためのIDとして用い、 StockCode はアイテムとして用い、どの商品( StockCode )同士の関連が強いかを、一回の購入( InvoiceNo )における共起情報によって計算しようということである。

表 5.18 online retailデータセット¶
InvoiceNo	StockCode	Description	Quantity	UnitPrice	CustomerID	Country	date	time
536365	85123A	WHITE HANGING HEART T-LIGHT HOLDER	6	2.55	17850	United Kingdom	20101201	082600
536365	71053	WHITE METAL LANTERN	6	3.39	17850	United Kingdom	20101201	082600
536365	84406B	CREAM CUPID HEARTS COAT HANGER	8	2.75	17850	United Kingdom	20101201	082600
:	:	:	:	:	:	:	:	:

tutorial_friends_output_image には出力データイメージを示している。相互に関連の強い2つのアイテム item1 と item2 および、それら2アイテムのリフト値を出力する。

表 5.19 ランク情報に基づく相関ルールの出力イメージ¶
item1	item2	lift
15056BL	15056N	29.5141
15056BL	20679	35.015
15056N	20679	24.1441
:	:	:

5.2. スクリプト¶

リスト 5.6 は、OnlineStoreのデータから、ランク情報に基づく相関ルールを列挙するPythonコードである。そして、グラフで視覚化した結果を図 1 に示す。赤い節点が一つのアイテムを示し、エッジが関連の強い結びつきを表している。スクリプトの実行内容については、スクリプト内にコメントとして記述している。

リスト 5.6 ルールの相互ランク情報に基づいた2アイテム相関ルールの列挙とその可視化を実現するスクリプト¶

#!/usr/bin/env python
# -*- coding: utf-8 -*-/
import os

# 視覚化のためのモジュール
import networkx as nx
import matplotlib
matplotlib.use('Agg') # 追加
import matplotlib.pyplot as plt

import nysol.mcmd as nm
import nysol.take as nt

iFile="onlineRetail2.csv"
oPath="./friends"
os.system("mkdir -p %s"%oPath)

# 注文番号(InvoiceNo)をトランザクションに、StockCodeをアイテムとして利用し、
# アイテムの類似度グラフを作成する。
# iFile
# InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
# 536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010/12/1 8:26,2.55,17850,United Kingdom
# 536365,71053,WHITE METAL LANTERN,6,2010/12/1 8:26,3.39,17850,United Kingdom
f=None
f <<= nm.mcut(f="InvoiceNo,StockCode",i=iFile)
f <<= nm.muniq(k="InvoiceNo,StockCode",o="%s/tra.csv"%oPath)
f.run(msg="on")

# アイテムサイズの上限と下限を共に2とすることで、2アイテム相関ルールが列挙される。
# 最小サポートは100とし、少なくとも100のトランザクションに共起する2アイテム集合を列挙する。
nt.mitemset(S=100,tid="InvoiceNo",item="StockCode",l=2,u=2,i="%s/tra.csv"%oPath,O=oPath).run()
# 途中経過: oPath/pattern.csvの中身
# 一行目は、アイテム22386と85099Bは833のトランザクションに共起していて、そのsupportは0.032でliftが8.209ということ。
# pid,size,count,total,support%0nr,lift,pattern
# 81,2,833,25900,0.03216216216,8.209,22386 85099B
# 478,2,784,25900,0.03027027027,17.1523,22697 22699
# 122,2,733,25900,0.0283011583,7.4039,21931 85099B
#                    :

# pattern項目上の2つのアイテムを2つの項目として分割し、
# エッジファイルを作成し、これが類似度グラフとなる。
# ここでは類似度の定義にはliftを利用する。
f=None
f <<= nm.msplit(f="pattern",a="item1,item2",i="%s/patterns.csv"%oPath)
f <<= nm.mcut(f="item1,item2,lift",o="%s/rules.csv"%oPath)
f.run(msg="on")
# rules.csvの内容
# item1,item2,lift
# 22386,85099B,8.209
# 22697,22699,17.1523
# 21931,85099B,7.4039
#        :

# これが相互類似度を利用したルール列挙プログラムfriends。
# 任意の2つのアイテムペア(上で求めたitem1,item2項目)について、liftが相互に5位以内であるようなアイテムペアを選択する。
nt.mfriends(ef="item1,item2",ei="%s/rules.csv"%oPath,sim="lift", rank=5, udout=True, eo="%s/friends.csv"%oPath).run()
# friends.vsvの内容
# item1%0,item2%1,lift
# 15056BL,15056N,29.5141
# 15056BL,20679,35.015
# 15056N,20679,24.1441
#           :

# 以下、friends.csvの視覚化
# 得られたアイテムペアをエッジとしたグラフを描画する。
# networkxモジュールのエッジフォーマット(アイテムペアのスペース区切り)としてedge.csvに書き出す。
f=None
f <<= nm.mcal(c="cat(\" \",$s{item1},$s{item2})", a="edges", i="%s/friends.csv"%oPath)
f <<= nm.mcut(f="edges",nfno=True,o="%s/edges.csv"%oPath)
f.run(msg="on")
# edges.csvの内容
# 15056BL 15056N
# 15056BL 20679
# 15056N 20679

# エッジファイルを読み込んで、バネモデルでレイアウトを決め、グラフを描画し、画像ファイルfriends.pngに出力する。
G = nx.read_edgelist("%s/edges.csv"%oPath)
pos=nx.spring_layout(G)
plt.figure(figsize=(10, 10))
nx.draw(G, pos=pos,node_size=40,iterations=20)
plt.savefig("%s/friends.png"%oPath)

Footnotes

1: 岩﨑幸子,中元政一,中原孝信,宇野毅明,羽室行信,グラフ構造による相関ルールの視覚化ツール：KIZUNA,2017年度人工知能学会(第31回),ウインクあいち,2017/5/24.