matsuyuta's Room
データの活用を考える
-
2009年 1月 22日 · カテゴリー: データ、情報との付き合い方;コメントは受け付けていません。
分析データは、Exceシート一枚にしてあると使いやすいです。
データベースに格納する場合、正規化してダブりがないようにいくつかのテーブルに分けたり・・・みたいなことをしますが、それは、業務用システムに対して、スピード処理をするためであって、データ分析についていえば、データはExcelシート一枚が基本です。(厳密には、スタースキーマというものを使ったりもしますが・・・)
で、分析用のデータがExcelシート一枚であれば、データの準備はおわりです。ですが、大概、いろいろなデータを合体させて分析データを作成したりします。たとえば、自社の売り上げデータと政府が調査した統計データなどを合わせてみたりすることが多いのではないでしょうか。
この場合、データの細かさ(データ粒度)を揃える必要があります。
これが結構大変な作業です。
自社のデータであれば、かなり細かい単位(商品ごと、顧客ごとなど)でデータをもっているはずです。しかし、政府の調査データなどは、個人のデータではなく、ある単位(性別、年代、価格帯、商品分類など)で集計されたデータがほとんどです。まあ、個人情報保護の観点からも個人までのデータを公開するわけにもいかないのでしょうが・・・。
では、どうすればいいか?
実際には、完全にデータの細かさを揃えることができない場合が多々あります。その場合は、だいたいでくっつけることもあります。そもそもデータ粒度が揃っているデータというのは、使い道を決めて集めたデータぐらいしか実際にはないです。
1、目的に沿った(データ粒度がそろった)データを収集する
2、だいたいでくっつける
3、あきらめる。(自社データのみでの分析するなど)
どのデータ分析が一番優れているかというと、
ケースバイケースです。お金と時間といったコストに比例して、効果がでるわけではないところが、やっかいですね。
データ分析の本なども結構でているのですが、このデータを揃える部分が乗っている本はあまり見かけたことがないです。本のとおりにやるには、サンプルのデータでやればできますが、分析用のデータを集める、分析用データに変換するというところが、ビジネス分析のとっつきの悪さにつながっているのではないでしょうか。
「テキトーに」とはいいませんが、ある程度「ざっくり」とした単位で集計したデータでくっつけてもいいかもしれません。もちろんそれは、どんな集計をしたかを明示して、現場感からずれていれば、再度集計方法を考えるなど対応すればよいのです。あまり、固く考えないことがデータをうまく扱うコツです。




