matsuyuta's Room
データの活用を考える
-
2009年 5月 2日 · カテゴリー: データ、情報との付き合い方;コメントは受け付けていません。
「参照系データベースには専用のDBMSが必要」,サイベースが見解
データの検索パターンが決まっている定型検索と
データの検索条件を変更し試行錯誤しながらデータを参照する非定型検索に分けて考えることがポイントである。
定型検索であれば、
汎用DBMSで十分対応できる。使い方が決まっているので、チューニングの結果がでやすいからである。
問題は非定型の検索処理かと思われる。
さまざま条件を試行錯誤しながら検索する場合、参照に特化したデータベースは重宝するであろう。
ただ非定型データ検索の場合、
・データがない。
・データの粒度(細かさ)がそろっていないためデータが使えない。
といったことがよく起きる。
その場合、データをいれたり、細かさを揃えたりする作業が発生する。
この作業をなくすためには、
あらゆるデータを揃えて、すべての粒度を揃えておく必要がある。
これは膨大な作業となる。
結局のところ
用途別にデータベースを構築することが最善なのである。
すべてをデータが用意されたデータウェアハウスを構築することは、実際問題不可能である。それゆえに、今回の記事は、「データウェアハウスインテグレータは食いっぱぐれない」仕組みづくりのための布石になっているのでは?
現実問題としては、
どんな検索をするかをある程度決めてからデータベースを構築し
足りないデータがあったら、その都度データを加えていく。
このサイクルをできるかぎり短い期間で回していく。
目的ありきでデータベースを充実させていくことが最善ではないか。
データが大量になった場合にも
参照に特化した大規模データベースを構築するといった終わりのない作業を考えるより、目的によって絞り込んだ信頼性の高いデータを集めることに力を注いだ方が効率も効果も高いと感じる。
データウェアハウスには
「Think Big, start small.」という考え方がある。
はじめは小規模ではじめ、その都度考えて見た方が、
損はしないかもしれない。
明日はどうなるかわからない、こんな時代ですから・・・。




