1. 基本処理¶

mcmdを初めて利用するユーザにとって最も難しい点は、 80を超えるメソッドをどのように組み合わせれば、どのような処理を実現できるかを思い描けないことにあるであろう。そこで、本チュートリアルでは、小さな課題別にその解決方法を示していく。以下に示すいずれの例も、Pythonを起動してコピペすれば実行可能である。なお、多くのサンプルコードには、わかりやすさのため、ポイントとなる箇所で途中経過をファイル(o="xx1"など)に出力しているが、実際に動かす時は、この指定を外した方が処理速度は速くなる。

1.1. 来店回数(日数)を求める¶

from pprint import pprint
import nysol.mcmd as nm

# どの顧客が来店した日付と時刻のデータ
dat=[
["customer","date","time"],
["A","20180101","101001"],
["B","20180101","123218"],
["A","20180101","141057"],
["B","20180104","214014"],
["B","20180106","200240"]
]
f=None
# 同じ顧客が同じ日に複数回来店していれば来店は一回と数えることにする。
# Aさんは2018/01/01に2回来店しているが、muniqすることで1回となる。
f <<= nm.muniq(k="customer,date", i=dat)
# customer項目が何行あるかカウントし、freqという項目で出力する。
f <<= nm.mcount(k="customer", a="freq")
# 必要な項目のみ選択する。
f <<= nm.mcut(f="customer,freq")
# ここで初めて実行し、結果はリストで変数resultに格納される。
result=f.run()
print(result)
# 以下出力結果
# [['A', '1'], ['B', '3']]

1.2. 平均来店間隔日数を求める¶

from pprint import pprint
import nysol.mcmd as nm

# どの顧客が来店した日付と時刻のデータ(スペース節約のため顧客Aのみ)
dat=[
["customer","date","time"],
["A","20180101","101001"],
["A","20180101","123218"],
["A","20180112","141057"],
["A","20180204","214014"],
["A","20180226","200240"]
]
f=None
# この処理は来店回数の処理の最初に同じ
f <<= nm.mcut(f="customer,date", i=dat).muniq(k="customer,date")
# customer項目を単位に、date昇順で並べ、date項目を一行上にずらしてnext項目として出力
# すなわち、dateとnextに本日と次回来店日が出力される。
f <<= nm.mslide(k="customer", s="date", f="date:next", o="xx1")
# 途中経過xx1の内容
# customer%0,date%1,next
# A,20180101,20180112
# A,20180112,20180204
# A,20180204,20180226

# 次回来店日−本日の日付計算をする。$d{項目名}にて日付型として識別される。
# dを付けなければ数値として計算されるので注意。
f <<= nm.mcal(c="$d{next}-$d{date}", a="days")
# 求めた日数の顧客別平均を計算する。
f <<= nm.mcut(f="customer,days")
f <<= nm.mavg(k="customer",f="days")
result=f.run()
print(result)
# 以下出力結果
# [['A', '18.66666667']]

1.3. 累積計算¶

from pprint import pprint
import nysol.mcmd as nm

# 顧客が月別に何回来店したかのデータ
dat=[
["customer","month","freq"],
["A","201801",5],
["B","201801",2],
["A","201802",4],
["B","201802",14],
["B","201803",8]
]
# もちろんmaccumメソッドを使えば簡単に実現できる。
# 顧客別に月の順に来店回数を足しこんだ結果がaccum項目に出力される。
result=nm.maccum(k="customer",s="month",f="freq:accum",i=dat).run()
pprint(result)
# 以下出力結果
# [['A', '201801', '5', '5'],
#  ['A', '201802', '4', '9'],
#  ['B', '201801', '2', '2'],
#  ['B', '201802', '14', '16'],
#  ['B', '201803', '8', '24']]

# mkeybreakを用いれば、より汎用的に累積計算が書ける。
f=None
# customer+monthで並べ替え、同じcustomerの先頭行のtop項目に1が出力される。
f <<= nm.mkeybreak(k="customer",s="month", a="top,bottom", i=dat, o="xx1")
# 途中経過xx1の内容
# customer%0,month%1,freq,top,bottom
# A,201801,5,1,
# A,201802,4,,1
# B,201801,2,1,
# B,201802,14,,
# B,201803,8,,1

# nullを0に置換しているのは、次のmcalのif関数がnullに対する処理はnullになるので、それを避けるため。
f <<= nm.mnullto(f="top,bottom",v="0")
# キーの最初の行はfreqをそのまま出力し、その他の行では、前行の結果(#{})にfreqを足し込む。
f <<= nm.mcal(c="if(${top}==1,${freq},#{}+${freq})",a="accum")
# 分かりやすさのために項目名ヘッダーも出力しておく。
f <<= nm.writelist(header=True)
result=f.run()
pprint(result)
# 以下出力結果
# [['customer', 'month', 'freq', 'top', 'bottom', 'accum'],
#  ['A', '201801', '5', '1', '0', '5'],
#  ['A', '201802', '4', '0', '1', '9'],
#  ['B', '201801', '2', '1', '0', '2'],
#  ['B', '201802', '14', '0', '0', '16'],
#  ['B', '201803', '8', '0', '1', '24']]

1.4. ある条件を満たした行以降にフラグを立てる¶

from pprint import pprint
import nysol.mcmd as nm

# 顧客の来店日と購入数量(qtty)データを想定する。
# 顧客別に購入数量が10を超えた日付以降にフラグ1を立てたい。
dat=[
["customer","date","qtty"],
["A","20180101","2"],
["A","20180101","5"],
["A","20180112","11"],
["A","20180204","7"],
["A","20180226","18"],
["B","20180110","1"],
["B","20180113","6"]
]
f=None
# customer項目のキーブレイク行を識別する項目(top,bot)を追加する。
# キー内の先頭行に1をtop項目に、最終行をbot項目に出力する。それ以外はnullが出力されるので、nullは0に変換しておく。
f <<= nm.mkeybreak(k="customer", s="date", i=dat)
f <<= nm.mnullto(f="top,bot",v="0",o="xx1")
# 途中経過xx1の内容
# customer%0,date%1,qtty,top,bot
# A,20180101,2,1,0
# A,20180101,5,0,0
# A,20180112,11,0,0
# A,20180204,7,0,0
# A,20180226,18,0,1
# B,20180110,1,1,0
# B,20180113,6,0,1

# 顧客の先頭行であれば、数量が10以上なら1、未満なら0を出力しておき、
# 先頭行以外では、前の行の結果が1であれば1を、数量が10以上なら1を出力し、それ以外は0を出力する。
f <<= nm.mcal(c='if(${top}==1, if(${qtty}>=10,1,0), if(#{}==1,1,if(${qtty}>=10,1,0)))', a="flag")
# 分かりやすさのために項目名ヘッダーも出力しておく。
f <<= nm.writelist(header=True)
result=f.run()
pprint(result)
# 以下出力結果
# 顧客Aは2018/1/12に初めて10を超えるので、それ以降のflag項目は1になっている。
# 顧客Bは10を超えることはなかった。
# [['customer', 'date', 'qtty', 'top', 'bot', 'flag'],
# ['A', '20180101', '2', '1', '0', '0'],
# ['A', '20180101', '5', '0', '0', '0'],
# ['A', '20180112', '11', '0', '0', '1'],
# ['A', '20180204', '7', '0', '0', '1'],
# ['A', '20180226', '18', '0', '1', '1'],
# ['B', '20180110', '1', '1', '0', '0'],
# ['B', '20180113', '6', '0', '1', '0']]

# mnulltoを使えば裏技的に同等の処理が可能。
f=None
# qttyが10以上の行を1にして、それ以外はnullにしておく。
f <<= nm.mcal(c="if(${qtty}>=10,1,nulln())",a="flag", i=dat,o="xx2")
# 途中経過xx2の内容
# customer,date,qtty,flag
# A,20180101,2,
# A,20180101,5,
# A,20180112,11,1
# A,20180204,7,
# A,20180226,18,1
# B,20180110,1,
# B,20180113,6,

# mnulltoで、p=Trueを指定すると、null値を前行の値で置換する。
f <<= nm.mnullto(k="customer", s="date", f="flag", p=True,o="xx3")
# 途中経過xx3の内容
# customer%0,date%1,qtty,flag
# A,20180101,2,
# A,20180101,5,
# A,20180112,11,1
# A,20180204,7,1
# A,20180226,18,1
# B,20180110,1,
# B,20180113,6,

# このmnulltoは一般的なの使い方で、flag項目のnullを0に変換する。
f <<= nm.mnullto(f="flag", v="0")
result=f.run()
pprint(result)
# [['A', '20180101', '2', '0'],
# ['A', '20180101', '5', '0'],
# ['A', '20180112', '11', '1'],
# ['A', '20180204', '7', '1'],
# ['A', '20180226', '18', '1'],
# ['B', '20180110', '1', '0'],
# ['B', '20180113', '6', '0']]

1.5. webページAから2-hops以内で到達できるページ¶

from pprint import pprint
import nysol.mcmd as nm

# あるwebサイトで、page1がpage2へのリンクを持っていることを表したデータ
dat=[
["page1","page2"],
["A","C"],
["C","A"],
["C","E"],
["A","E"],
["C","D"],
["D","B"],
["E","F"],
["F","B"],
["B","C"],
]
### Aから1-hopで到達できるページの選択
f1=None
f1 <<= nm.mselstr(f="page1", v="A", i=dat)
f1 <<= nm.mcut(f="page2:page").muniq(k="page")
### Aから2-hopsで到達できるページの選択
f2=None
# datを自己joinする。2つの同じデータdatがあると考えればよい。
# 1つ目のdatのpage2と2つ目のdatのpage1で突き合わせてpage2を結合すれば、それが2-hopsで到達できるページとなる。
# このとき、page1とpage2は同じページが複数存在する(例えばC)のでmnjoinを使う。
f2 <<= nm.mnjoin(k="page2", K="page1", m=dat, f="page2:page3", i=dat, o="xx1")
# 途中経過xx1の内容
# page1,page2%0,page3
# C,A,C
# C,A,E
# D,B,C
# F,B,C
# A,C,A
# A,C,E
# A,C,D
# B,C,A
# B,C,E
# B,C,D
# C,D,B
# C,E,F
# A,E,F
# E,F,B

# Aから始まる経路を選択
f2 <<= nm.mselstr(f="page1", v="A")
# page3で同じページに到達するルートもありえるので、単一化し、必要な最終到達ページ項目のみ選択する。
# 項目名をpageに変更しているのは、次にm2catするため。
f2 <<= nm.mcut(f="page3:page").muniq(k="page")
## f1,f2の結果を結合し、resultに格納する。
result=nm.m2cat(i=[f1,f2]).muniq(k="page").run()
print(result)
# 以下出力結果
# [['A'], ['C'], ['D'], ['E'], ['F']]

1.6. 顧客の会員期間(開始-終了)を行に展開して集計¶

from pprint import pprint
import nysol.mcmd as nm

# 顧客Aは2018/1/10〜2018/1/15まで会員だった。
dat=[
["customer","frDate","toDate"],
["A","20180110","20180115"],
["B","20180108","20180113"],
["C","20180112","20180116"],
]

# 会員別開始日付と終了日付を切り出して併合する
f1 = nm.mcut(f="customer,frDate:date", i=dat)
f2 = nm.mcut(f="customer,toDate:date", i=dat)
f=None
f <<= nm.m2cat(i=[f1,f2],o="xx1")
# 途中経過xx1の内容
# date項目には、顧客別に開始日付と終了日付の2行ある。
# customer,date
# A,20180110
# B,20180108
# C,20180112
# A,20180115
# B,20180113
# C,20180116

# 顧客別に、開始日付と終了日付が飛んでいる期間を連続した日付で埋める
# Aならば2018/1/10〜2018/1/15の間の日付が追加される。
f <<= nm.mpadding(k="customer",f="date%d",o="xx2")
# 途中経過xx2の内容
# customer%0,date%1
# A,20180110
# A,20180111
# A,20180112
# A,20180113
# A,20180114
# A,20180115
# B,20180108
# B,20180109
# B,20180110
# B,20180111
# B,20180112
# B,20180113
# C,20180112
# C,20180113
# C,20180114
# C,20180115
# C,20180116

# 日別に何人が会員であったかをカウント集計する。
f <<= nm.mcut(f="date")
f <<= nm.mcount(k="date",a="freq")
result=f.run()
pprint(result)
# 以下出力結果
# [['20180108', '1'],
# ['20180109', '1'],
# ['20180110', '2'],
# ['20180111', '2'],
# ['20180112', '3'],
# ['20180113', '3'],
# ['20180114', '2'],
# ['20180115', '2'],
# ['20180116', '1']]

1.7. ニュースのキーワードの出現回数を過去3日のスライド窓毎に求める。¶

from pprint import pprint
import nysol.mcmd as nm

# 2018/1/1にAというキーワードがニュースに10回登場した。簡単のためキーワードはAのみ。
dat=[
["keyword","date","freq"],
["A","20180101",10],
["A","20180103",2],
["A","20180104",3],
["A","20180106",3],
]
f=None
# 飛んでいる日付を埋める。k=,f=の項目、すなわちfreq項目は0で埋められる(v=0)。
f <<= nm.mpadding(k="keyword",f="date%d",v=0,i=dat,o="xx1")
# 途中経過xx1の内容
# keyword%0,date%1,freq
# A,20180101,10
# A,20180102,0
# A,20180103,2
# A,20180104,3
# A,20180105,0
# A,20180106,3

# dateで3行(日)のスライド窓項目winを作る
f <<= nm.mwindow(k="keyword",wk="date:win",t=3,o="xx2")
# 途中経過xx2の内容
# win%1,keyword%0,date,freq
# 20180103,A,20180101,10
# 20180103,A,20180102,0
# 20180103,A,20180103,2
# 20180104,A,20180102,0
# 20180104,A,20180103,2
# 20180104,A,20180104,3
# 20180105,A,20180103,2
# 20180105,A,20180104,3
# 20180105,A,20180105,0
# 20180106,A,20180104,3
# 20180106,A,20180105,0
# 20180106,A,20180106,3

# スライド窓別に頻度を合計して出来上がり。
f <<= nm.mcut(f="keyword,win,freq")
f <<= nm.msum(k="keyword,win", f="freq")
result=f.run()
pprint(result)
# 以下出力結果: キーワードAは2018/1/3の過去3日間(1/3,1/2,1/1)のニュースに12回出現したということ。
# [['A', '20180103', '12'],
#  ['A', '20180104', '5'],
#  ['A', '20180105', '5'],
#  ['A', '20180106', '6']]

つづく。。