5.22. mhashsum ハッシュ法による項目値の合計

hash法を使って k= パラメータで指定した項目を単位にして、 f= パラメータで指定した項目値を合計する。 msum 項目値の合計 との違いは、キー項目の並べ替えが必要ないため、その分処理速度が速い。 ただし、キーのサイズ(キー項目のとる値の種類数)が多い場合は処理速度が遅くなる。 msumとmhashsumのどちらを利用するかはデータの内容からユーザーが判断する(後半に示す「ベンチマーク」参照)。

パラメータ

i= : 型=str , 任意(default=標準入力)

入力データを指定する。

o= : 型=str , 任意(default=標準出力)

出力データを指定する。

f= : 型=str , 必須

ここで指定された項目(複数項目指定可)が合計される。
:(コロン)で新項目名を指定可能。例)f=数量:数量合計

k= : 型=str , 任意(default=キーブレイク処理しない)

ここで指定された項目(複数項目指定可)をキーとして集計する。

hs= : 型=str , 任意(default=)

ハッシュサイズ
処理対象データのキーサイズから,ユーザが消費メモリ量と速度を判断して指定する。指定する値としては素数がよい。
キーサイズが大きいデータに対してハッシュサイズが十分な大きさでなければ処理速度が遅くなる。
ハッシュサイズが十分に大きいと処理速度は速いが、
その分多くのメモリが必要になる(後半に示す「ベンチマーク」参照)。
必要なメモリ量の目安: K*(24+F*16) byte, K:キーのサイズ, F:f=で指定した項目数

n= : 型=bool , 任意(default=False)

NULL値が1つでも含まれていると結果もNULL値とする。

利用例

importと入力データ(CSV)の準備

 1import nysol.mcmd as nm
 2
 3with open('dat1.csv','w') as f:
 4  f.write(
 5'''customer,quantity,amount
 6A,1,
 7B,,15
 8A,2,20
 9B,3,10
10B,1,20
11''')

基本例

customer 項目を単位にして、 quantityamount 項目の合計を計算する。

1nm.mhashsum(k="customer", f="quantity,amount", i="dat1.csv", o="rsl1.csv").run()
2### rsl1.csv の内容
3# customer,quantity,amount
4# A,3,20
5# B,4,45

NULL値出力

n=True オプションを指定することで、NULL値が含まれている場合は、結果もNULL値として出力する。

1nm.mhashsum(k="customer", f="quantity,amount", n=True, i="dat1.csv", o="rsl2.csv").run()
2### rsl2.csv の内容
3# customer,quantity,amount
4# A,3,
5# B,,45

関連メソッド