MCMD2 : コマンドリファレンス : msummary 1変数の統計量の計算

3.62 msummary 1変数の統計量の計算

f=パラメータで指定した集計項目で c=パラメータで指定した統計量の計算をする。

書式

msummary c= f= [a=] [k=] [-n] [i=] [o=] [-assert_diffSize] [-assert_nullkey] [-assert_nullin] [-assert_nullout] [-nfn] [-nfno] [-x] [-q] [tmpPath=] [precision=] [--help] [--helpl] [--version]

パラメータ

`k=`	キー項目名リスト(複数項目指定可)【集計キーブレイク処理】
	ここで指定された項目を単位として集計する。
	指定する場合は事前に指定する集計の単位となる項目順に並べ替えておく必要がある。
`f=`	集計項目名リスト(複数項目指定可)
	ここで指定された項目の値が集計される。
	`-x`,`-nfn`オプション使用時は、項目番号(0～)で指定。
`c=`	統計量リスト(複数項目指定可)
	出力する統計量をコンマで区切って指定する。
	統計量リスト:
	`sum/mean/count/ucount/devsq/var/uvar/sd/usd/cv/min/qtile1/median/qtile3/max/`
	`range/qrange/mode/skew/uskew/kurt/ukurt`
`-a`	新項目名
	`f=`パラメータで指定した項目名をデータとして出力する際の項目名(省略時はfld)を指定する。

統計量リスト

c=パラメータで指定できる統計量と定義をTable 3.32に示す。

Table 3.32: 統計量リスト

`c=`の値	内容	式	備考
count	件数(NULL値以外)	$n$ : NULL値以外の件数	文字列項目に対しては適用できない。
ucount	ユニーク件数	$un$ : 重複値を省いた件数	文字列項目に対しては適用できない。
sum	合計	$sum=\sum _{i=1}^ n x_ i$
mean	算術平均	$m=\frac{1}{n}\sum _{i=1}^ n x_ i$
devsq	偏差平方和	$S=\sum _{i=1}^ n(x_ i-m)^2$
var	分散	$s^2=\frac{1}{n}S$
uvar	分散(不偏推定値)	$u^2=\frac{1}{n-1}S$
sd	標準偏差	$s=\sqrt{s^2}$
usd	標準偏差(不偏分散のsqrt)	$u=\sqrt{u^2}$	一般的によく使われる標準偏差
cv	変動係数	$cv=s/m×100\%$
mode	最頻値	$mode$ : 最頻出の値	全ての値が異なる場合はNULLを、同頻度
			の場合はより小さい方の値を出力する。
min	最小値	$min=\min _ i x_ i$
max	最大値	$max=\max _ i x_ i$
range	範囲	$r=max-min$
median	中央値	$Q2=昇順に並べた時の第2四文位点$
qtile1	第1四分位点	$Q1=昇順に並べた時の第1四文位点$
qtile3	第1四分位点	$Q3=昇順に並べた時の第3四文位点$
qrange	四分位範囲	$rq=Q3-Q1$
skew	歪度	$\frac{\frac{1}{n}\sum _{i=1}^ n (x_ i-m)^3}{s^3}$
uskew	歪度(不偏推定値)	省略
kurt	尖度	$\frac{\frac{1}{n}\sum _{i=1}^ n (x_ i-m)^4}{s^4}-3.0$
ukurt	尖度(不偏推定値)	省略

利用例

例1: 基本例

「顧客」項目を単位に「数量」と「金額」項目の中央値・平均値を求める。統計量を求めた項目名は「変数」という項目に出力する。

$ more dat1.csv
顧客,数量,金額
A,1,10
A,2,20
B,1,15
B,3,10
B,1,20
$ msummary k=顧客 f=数量,金額 c=median:中央値,mean:平均値 a=変数 i=dat1.csv o=rsl1.csv
#END# kgsummary a=変数 c=median:中央値,mean:平均値 f=数量,金額 i=dat1.csv k=顧客 o=rsl1.csv
$ more rsl1.csv
顧客%0,変数,中央値,平均値
A,数量,1.5,1.5
A,金額,15,15
B,数量,1,1.666666667
B,金額,15,15

関連コマンド

mstats : 求める統計量が1つのとき用いる。