mcmdのメソッド比較¶

nysol.mcmdが提供する70以上の処理メソッドの中から、主な処理メソッドについての処理速度の実験を行う。

準備¶

本節で扱っているPythonスクリプトの全ては github よりダウンロードできる ( リスト 16 )。ダウンロードしたディレクトリ下 bench/methods に以下の2つのスクリプトがある。

mkdata.py : 集計キーや数値項目を備えたランダムなデータを生成する

bench.py : ベンチマーク用スクリプト( リスト 21 )

リスト 16 ベンチマークスクリプトのダウンロード¶

$ git clone https://github.com/nysol/bench.git
$ cd bench/methods

利用データ¶

利用したデータは、「 mcmdベンチマーク用乱数データセット」節で解説されている人工的に生成したデータであり、上述のgitからダウンロードしたスクリプト mkdata.py を実行すれば ./DATA ディレクトリが作成され、そこに表 10 に示される異なる3つのサイズのデータが生成される。処理には10分ほどかかる。データの詳細については、「 mcmdベンチマーク用乱数データセット」節を参照されたい。

表 10 ベンチマークに用いたデータ一覧¶
名称	ファイル名	行数(ヘッダ除く)	サイズ
small	10000.csv	10000	665 KB
middle	1000000.csv	1000000	68.5 MB
large	100000000.csv	100000000	7.05 GB

検証内容¶

mcmdの処理メソッドの速度を評価するために、最も処理速度が速いであろう mcut 処理メソッドをベンチマークに、他のメソッドの相対的実行時間を計測した。個々の処理メソッドの関数を bench.py から抜粋したものをリスト 17 に示している。それぞれの関数では、入力ファイル名 iFile と実行回数 loop をパラメータとしてとる。入力ファイルは、表 10 に示される3種のCSVデータで、実行回数は5回固定である。時間の計測は、実行に要した実時間を計測し、その平均と標準偏差を計算している。なお、出力は基本的にカレントディレクトリにファイルとして書き出している。

msum_key3 関数は、key3項目を集計キーにして全ての数値項目を合計する処理である。このように関数の名前にキー項目など主だった特徴となるキーワードを用いている。 msum_key3_presort 関数では、キー項目を事前に並べ替えた後で msum を実行している。このことによって、裏で自動的に実行される並べ替えを省いて純粋なmsumの実行時間を計測できることになる。

リスト 17 ベンチマークスクリプトのダウンロード¶

def mcut(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.mcut(f="id,key1,key2,key3,int1,int2,float1,float2,date,time",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec

def msum_key3(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.msum(k="key3",f="int1,int2,float1,float2",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec

def msum_key3_presort(iFile,loop):
  nm.msortf(f="key3",i=iFile,o="sorted").run()
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.msum(k="key3",f="int1,int2,float1,float2",i="sorted",o="oFile").run()
    sec.append(time.time()-st)
  return sec

実験結果¶

表 11 に、mcut処理メソッドをベンチマークにした相対時間を示す。 msum_key3 のlargeで6.2となっているが、mcutのlargeを処理した時間に比べて6.2倍の時間を要したことを意味している。個々の処理内容の詳細については bench.py を直接参照されたい。また、表 12 に実時間の平均と標準偏差を示す。

表 11 実験結果(対mcutの実行時間比)¶
method	small(1万行:665KB)	middle(100万行:68.5MB)	large(1億行:7.05GB)
mcut	1	1	1
msum_key3	21.9	4.9	6.2
msum_key3_presort	3.7	1.5	1.1
mhashsum_key3	7.4	2.6	1.8
msortf_key3	4.8	2.2	4.6
msortf_float2	20.8	6.1	12.9

表 12 実験結果(実時間秒数:mean(sd))¶
method	small(1万行:665KB)	middle(100万行:68.5MB)	large(1億行:7.05GB)
mcut	0.004002(0.000703)	0.307001(0.001781)	30.737572(0.125166)
msum_key3	0.087729(0.113214)	1.494672(0.012172)	190.174376(1.948978)
msum_key3_presort	0.014930(0.000098)	0.463388(0.001697)	35.182463(0.048672)
mhashsum_key3	0.029656(0.002965)	0.805394(0.003971)	56.813676(0.107048)
msortf_key3	0.019332(0.004538)	0.666170(0.004806)	140.808167(0.528175)
msortf_float2	0.083201(0.131085)	1.887404(0.024765)	397.061643(0.161616)

ベンチマークテストを実施した計算環境は以下の通りである。

PC: MacPro(2013)

CPU: 2.7GHz 12-Core Intel Xeon E5

memory: 64GB

hdd: USB3 HDD

参考: ベンチマークスクリプト¶

参考までにベンチマークテストに利用したスクリプトを、リスト 18 に示す( 2021年08月18日時点)。

リスト 18 ベンチマークスクリプト¶

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import os
import time
import datetime
import nysol.mcmd as nm

def mcut(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.mcut(f="id,key1,key2,key3,int1,int2,float1,float2,date,time",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec

def msortf_key1(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.msortf(f="key1",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec

def msortf_key2(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.msortf(f="key1",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec

def msortf_key3(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.msortf(f="key1",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec

def msortf_float2(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.msortf(f="float2%n",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec

def msum_key3(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.msum(k="key3",f="int1,int2,float1,float2",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec

def msum_key3_presort(iFile,loop):
  nm.msortf(f="key3",i=iFile,o="sorted").run()
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.msum(k="key3",f="int1,int2,float1,float2",i="sorted",o="oFile").run()
    sec.append(time.time()-st)
  return sec


def mhashsum_key3(iFile,loop):
  sec=[]
  for i in range(loop):
    st=time.time()
    nm.mhashsum(k="key3",f="int1,int2,float1,float2",i=iFile,o="oFile").run()
    sec.append(time.time()-st)
  return sec


##########################################################################
# functions for benchmark test
##########################################################################
# calculate actual execution time for each method
# iFile
# method,dataSize,mean,sd
# mcut,10000,0.004002,0.000703
# mcut,1000000,0.307001,0.001781
# oFile
# method,small,middle,large
# mcut,0.004002(0.000703),0.307001(0.001781),30.737572(0.125166)
# msum_key3,0.087729(0.113214),1.494672(0.012172),190.174376(1.948978)
# msum_key3_presort,0.014930(0.000098),0.463388(0.001697),35.182463(0.048672)
def calTime(iFile,oFile):
  f=None
  f <<= nm.mnumber(q=True, a="id", i=iFile)
  f <<= nm.mcal(c='$s{mean}+"("+$s{sd}+")"', a="time")
  f <<= nm.m2cross(k="method",s="dataSize",f="time")
  f <<= nm.msortf(f="id%n")
  f <<= nm.mcut(f="method,10000:small,1000000:middle,100000000:large")
  f <<= nm.mfldname(q=True,o=oFile)
  f.run()

# calculate relative execution time to "mcut" method for each method
# iFile
# method,dataSize,mean,sd
# mcut,10000,0.004002,0.000703
# mcut,1000000,0.307001,0.001781
# oFile
# mcut,1,1,1
# msum_key3,21.9,4.9,6.2
# msum_key3_presort,3.7,1.5,1.1
# mhashsum_key3,7.4,2.6,1.8
def calRelative(iFile,oFile):
  mcut=None
  mcut <<= nm.mselstr(f="method",v="mcut", i="methods.csv")

  f=None
  f <<= nm.mnumber(q=True, a="id", i=iFile)
  f <<= nm.mjoin(k="dataSize",m=mcut,f="mean:base")
  f <<= nm.mcal(c='round(${mean}/${base},0.1)', a="score")
  f <<= nm.m2cross(k="method",s="dataSize",f="score")
  f <<= nm.msortf(f="id%n")
  f <<= nm.mcut(f="method,10000:small,1000000:middle,100000000:large")
  f <<= nm.mfldname(q=True,o=oFile)
  f.run()

# calculate mean and SD of multiple executions
def cal(sec):
  mean=0
  for s in sec:
    mean+=s
  mean/=len(sec)
  sd=0
  for s in sec:
    sd+=(s-mean)**2
  sd/=(len(sec)-1)
  sd=sd**(1/2)
  return mean,sd

################
# entry point

iPath="./DATA"
loop=5
small =10000
middle=1000000
large =100000000
funcs=[]
funcs.append("mcut")
funcs.append("msum_key3")
funcs.append("msum_key3_presort")
funcs.append("mhashsum_key3")
funcs.append("msortf_key3")
funcs.append("msortf_float2")

with open("methods.csv","w") as fpw:
  fpw.write("method,dataSize,mean,sd\n")
  for func in funcs:
    for size in [small,middle,large]:
      iFile="%s/%d.csv"%(iPath,size)
      name="%s_%s"%(func,size)
      print("START:",name)
      sec=eval(func+'("%s",%d)'%(iFile,loop))
      print("tm",sec)
      mean,sd=cal(sec)
      fpw.write("%s,%s,%f,%f\n"%(func,size,mean,sd))

today = datetime.date.today().strftime('%Y%m%d')
calTime("methods.csv","time_%s.csv"%today)
calRelative("methods.csv","score_%s.csv"%today)

os.system("output files: methods.csv, time.csv, score.csv")