mcmdモジュール¶
MCMD 1 とは、大規模な表構造データを高速に処理する目的で開発されたメソッド群である。 MCMDは、単一の機能(例えば、並べ替えや表の結合など)に特化したメソッドを80種類以上提供している。 全てのメソッドは共通して、CSV(カンマ区切りデータ)ファイルもしくはPythonのリストを読み込み、 結果をCSVとして標準出力に書き出すだけの非常にシンプルな処理方式に従っている。 個々のメソッドはスレッド単位で実行され、データはスレッド間パイプを構成することで組み合わせて処理され、 sh等のOSのシェルを用いることなくPython内で完結したプログラミングを可能としている。 MCMDは、特に知識発見プロセス 2 における 前処理 で威力を発揮するが、その他のプロセスにおいても利用可能である。
Contents:
- 1. はじめよう
- 2. データ
- 3. 項目名
- 4. 処理フロー
- 5. 処理メソッド一覧
- 5.1. maccum 累積計算
- 5.2. marff2csv arff形式からcsv形式への変換
- 5.3. mavg 項目値の平均
- 5.4. mbest 指定行の選択
- 5.5. mbucket 件数均等化バケット分割
- 5.6. mcal 項目間演算
- 5.7. mcat 併合
- 5.8. mchgnum 数値範囲による置換
- 5.9. mchgstr 文字列の置換
- 5.10. mcombi 組合せ計算
- 5.11. mcommon 参照ファイルによる行選択
- 5.12. mcount 行数カウント
- 5.13. mcross クロス集計
- 5.14. m2cross 1対Nのクロス集計
- 5.15. mcut 項目の選択
- 5.16. mdelnull NULL値行の削除
- 5.17. mdformat 日付時刻抽出
- 5.18. mduprec レコードの複写
- 5.19. mfldname 項目名の変更
- 5.20. mfsort 項目ソート
- 5.21. mhashavg ハッシュ法による項目値の平均
- 5.22. mhashsum ハッシュ法による項目値の合計
- 5.23. mjoin 参照ファイルの項目結合
- 5.24. mkeybreak キーブレイク箇所
- 5.25. mmbucket 多次元均等化バケット分割
- 5.26. mmvavg 移動平均の算出
- 5.27. mmvsim 移動窓の類似度計算
- 5.28. mmvstats 移動窓の統計量の計算
- 5.29. mnewnumber 連番データの新規生成
- 5.30. mnewrand 乱数データの新規生成
- 5.31. mnewstr 固定文字列データの新規生成
- 5.32. mnjoin 参照ファイル項目の自然結合
- 5.33. mnormalize 基準化
- 5.34. mnrcommon 参照ファイルの複数範囲条件による行撰択
- 5.35. mnrjoin 参照ファイルの複数範囲条件による自然結合
- 5.36. mnullto NULL値の置換
- 5.37. mnumber 連番
- 5.38. mpadding (行補完) コマンド
- 5.39. mpaste 参照ファイル項目の行番号マッチング結合
- 5.40. mproduct 参照ファイルの直積結合
- 5.41. mrand 擬似乱数
- 5.42. mrjoin 参照ファイルの範囲条件による結合
- 5.43. msed 正規表現による文字列置換
- 5.44. msel 条件式による行選択
- 5.45. mselnum 数値範囲による行選択
- 5.46. mselrand ランダムに行を選択
- 5.47. mselstr 文字列による行選択
- 5.48. msep レコードの分割
- 5.49. msetstr 文字列項目の追加
- 5.50. mshare 構成比の計算
- 5.51. mshuffle レコード分割
- 5.52. msim 二変数間の類似度の計算
- 5.53. mslide 行ずらし
- 5.54. msortf レコードの並べ換え
- 5.55. msplit 区切り文字による項目分割
- 5.56. mstats 一変数の統計量算出
- 5.57. msum 項目値の合計
- 5.58. msummary 1変数の統計量の計算
- 5.59. mtab2csv TSVからCSVデータへの変換
- 5.60. mtonull NULL値へ置換
- 5.61. mtra 縦型データをベクトル項目に変換
- 5.62. mtrafld クロス表をトランザクション項目に変換
- 5.63. mtraflg クロス表をトランザクション項目に変換
- 5.64. muniq レコードの単一化
- 5.65. mvcat ベクトルの併合
- 5.66. mvcommon ベクトル要素の参照選択
- 5.67. mvcount ベクトルサイズの計算
- 5.68. mvdelim ベクトル要素の区切り文字変更
- 5.69. mvdelnull ベクトルのNULL要素の削除
- 5.70. mvjoin ベクトル要素の参照結合
- 5.71. mvnullto ベクトル要素のNULL置換
- 5.72. mvreplace ベクトル要素の参照置換
- 5.73. mvsort ベクトル要素のソート
- 5.74. mvuniq ベクトル要素の単一化
- 5.75. mwindow スライド窓の生成
- 5.76. mxml2csv xmlからcsvへの変換
- 6. 共通パラメータ
- 6.1. i= m= : 入力データの指定
- 6.2. o= u= : 出力データの指定
- 6.3. f= : 入出力項目名の指定
- 6.4. k= : キー項目の指定
- 6.5. s= : 並べ替え項目の指定
- 6.6. q= : 自動並べ替えの無効化
- 6.7. a= : 追加項目の指定
- 6.8. nfn= : 1行目を項目名ヘッダとみなさない
- 6.9. nfno= : 項目名ヘッダを出力しない
- 6.10. x= : 項目番号による指定
- 6.11. precision=
- 6.12. tmpPath=
- 6.13. delim= : ベクトル型データの区切り文字
- 6.14. bufcount= : キー単位処理のバッファ数
- 6.15. assert_diffSize= : 入出力件数が異なればwarningを出す
- 6.16. assert_nullkey= : キー項目のNULL値にwarningを出す
- 6.17. assert_nullin= : 入力項目のNULL値にwarningを出す
- 6.18. assert_nullout= : 出力項目のNULL値にwarningを出す
- 7. 項目間演算
- 8. mcal関数一覧
- 8.1. abs 絶対値
- 8.2. acos コサインの逆関数
- 8.3. age 年令
- 8.4. and 論理積
- 8.5. argsize 引数の数
- 8.6. asin サインの逆関数
- 8.7. atan タンジェントの逆関数
- 8.8. atan2 座標の角度
- 8.9. avg 平均
- 8.10. berrand ベルヌーイ乱数
- 8.11. binomdist 二項分布の累積確率
- 8.12. bottom 終端行
- 8.13. capitalize 先頭文字大文字変換
- 8.14. cast 型変換
- 8.15. cat 文字列併合
- 8.16. ceil 切り上げ
- 8.17. cos コサイン
- 8.18. cosh 双曲線余弦
- 8.19. countnull 合計
- 8.20. date 年月日
- 8.21. day 日
- 8.22. degree 角度
- 8.23. diff 期間
- 8.24. dist 距離
- 8.25. distgps GPS距離
- 8.26. dow 曜日
- 8.27. e ネイピア数
- 8.28. exp 指数関数
- 8.29. factorial 階乗
- 8.30. fixlen 固定長変換
- 8.31. fldsize 項目数
- 8.32. floor 切り捨て
- 8.33. format 書式付き出力
- 8.34. fract 小数部
- 8.35. gcd 最大公約数
- 8.36. hasspace 空白類文字検索
- 8.37. heron 三角形の面積
- 8.38. hour 時
- 8.39. if 条件選択
- 8.40. int 整数部
- 8.41. isnull NULL値判定
- 8.42. julian ユリウス暦変換
- 8.43. lcm 最小公倍数
- 8.44. leapyear 閏年判定
- 8.45. left 先頭切り出し
- 8.46. length 文字列長
- 8.47. line 行番号
- 8.48. ln 自然対数
- 8.49. log 対数
- 8.50. log10 常用対数
- 8.51. log2 底が2の対数
- 8.52. match 検索
- 8.53. max 最大値
- 8.54. mid 部分文字列切り出し
- 8.55. min 最小値
- 8.56. minute 分
- 8.57. month 月
- 8.58. not 否定
- 8.59. now 現在時刻
- 8.60. nrand 正規乱数
- 8.61. null NULL値
- 8.62. or 論理和
- 8.63. pi 円周率
- 8.64. power 累乗
- 8.65. product 積
- 8.66. radian ラジアン
- 8.67. rand 一様乱数
- 8.68. randi 整数一様乱数
- 8.69. regexlen マッチ文字数
- 8.70. regexm 全体マッチ
- 8.71. regexpfx マッチ文字列のプレフィックス
- 8.72. regexpos マッチ位置
- 8.73. regexrep マッチ文字列の置換
- 8.74. regexs マッチ
- 8.75. regexsfx マッチ文字列のサフィックス
- 8.76. regexstr マッチ文字列
- 8.77. right 末尾切り出し
- 8.78. round 四捨五入
- 8.79. second 秒
- 8.80. sign 符号
- 8.81. sin サイン
- 8.82. sinh 双曲線正弦
- 8.83. sqrt 平方根
- 8.84. sqsum 平方和
- 8.85. sum 合計
- 8.86. tan タンジェント
- 8.87. tanh 双曲線逆正接
- 8.88. time 時分秒
- 8.89. today 本日の日付
- 8.90. tolower 小文字変換
- 8.91. top 先頭行
- 8.92. toupper 大文字変換
- 8.93. tseconds 経過秒数
- 8.94. uxt UNIX時刻変換
- 8.95. week 週
- 8.96. year 西暦年
- 9. メソッドの自動追加
- 10. 特殊な処理メソッド
- 11. runとruns
- 12. イテレータ
パラメータ
Footnotes