matsuyuta's Room
データの活用を考える
-
2009年 1月 25日 · カテゴリー: データ、情報との付き合い方;コメントは受け付けていません。
データの出処がひとつ(一つのシステムなど)であれば、とくに気にする必要はないですが、分析の場合、いろいろなデータを集めることが多いです。その場合、データの統合が必要になってきます。要は、つじつまを合わせる必要があります。
データの出所によって、同じデータでも意味が違っていたり、データの細かさが違う場合もあります。
統計解析を行う場合は、Excelシート一枚(データベースだとテーブルひとつ)にデータを統合することが基本です。
データを統合する作業はいろいろありますが、システム的なことも含めると、ざっくり以下のようなことです。
(「データウェアハウス・パフォーマンス-システム構築・管理技法-」W.H.Inmonら著 共立出版より)
・データの再順序化
・事前に決められた体系に従ったデータの符号化
・共通の方式を用いたデータの変換
・共通のフォーマットにデータを標準化
・共通のデータ構造にデータを構造化
・共通の定義に従ったデータの解釈
・共通レベルの粒度にデータを要約
・共通の定義に基づくキーの構造化
・共通のキーに従ったデータの索引づけ
・多数のDBMSから共通のDBMSにデータを移動
・多数のオペレーティングシステムから共通のオペレーティングシステムにデータを移動・多数のハードウェアアーキテクチャから共通のハードウェアアーキテクチャにデータを移動




