データレイクとデータウェアハウス

こんにちは！

スタッフ19号です！

今回は、ビッグデータ関連で出てくる、

データレイクとデータウェアハウスについてみてみようと思います。

どちらにも共通している部分としては

データレイクとデータウェアハウスは、企業内に分散して存在するデータや日々増え続けるデータを統合し、一元管理するために役立つ重要なシステムです。

です。

では、それぞれがどのようなものか見ていきます。

データレイクとは？

テキストからGPSデータまで、幅広いデータをそのまま扱うツール。
保存されるデータは一切処理を加えていないため、目的に応じて柔軟に活用できます。ただし、その分DWHよりも大きいストレージが必要になるうえ、統一した扱いが難しい。
データレイクに保存されるデータは利用目的が明確ではない。目的が定まっていないために、構造化できない。将来利用される可能性があるデータをひとまず非構造化データのまま格納する。
データレイクが得意とするのはセンサーのログやGPSデータ、SNSのテキストなどビジネスに関連して時々刻々と生み出されるようないわば生のデータを統合して取り扱うソリューション。
ELT（抽出、格納、変換）

メリット

デメリット

使用例

社内の各種アプリケーションやデータベースに保管された規則性を持った構造化データを収集し、目的別に定義された形に統合・格納して、分析業務で利用するためのデータストア。
データの分析要件にもとづきデータモデルを設計、事前定義し、それに併せて必要なデータを収集、加工、統合して格納しておくというプロセスが必要。
企業内で営業や経営（経理）など部署ごとに分かれた複数の業務システムやデータベースからデータを集約し、集められたデータはサブジェクト（主題）ごとに、時系列に従って分解・整理して蓄積していく。
ETL（抽出、変換、格納）

メリット

データが最初から構造化されているため、抽出・分析といった作業はスピーディかつ効率的に行うことができる。
CPUやメモリなどハードウェア面でのリソースの消費も最小限に抑えることが可能。
データ統合という面では、社内のさまざまな部門のデータが集約されるので、必要なデータを探すために各部門からデータを取り寄せるといった手間を省くことができる。
通常のデータベースと違って、更新される前の情報や一定期間が過ぎた情報もすべて履歴や古い情報として残す。そのため長期間にわたる時間軸に沿ったデータの変化なども読み取ることができる。

デメリット

使用例

このような違いになります。

データの保存の方法が全然違うのですね。

どっちを今使うべきか考えて、利用しないといけないですね。

では、今回はデータレイクとデータウェアハウスについてでした！

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください。