こんにちは!
スタッフ19号です!
今回は、ビッグデータ関連で出てくる、
データレイクとデータウェアハウスについてみてみようと思います。
どちらにも共通している部分としては
データレイクとデータウェアハウスは、企業内に分散して存在するデータや日々増え続けるデータを統合し、一元管理するために役立つ重要なシステムです。
です。
では、それぞれがどのようなものか見ていきます。
データレイクとは?
- テキストからGPSデータまで、幅広いデータをそのまま扱うツール。
- 保存されるデータは一切処理を加えていないため、目的に応じて柔軟に活用できます。ただし、その分DWHよりも大きいストレージが必要になるうえ、統一した扱いが難しい。
- データレイクに保存されるデータは利用目的が明確ではない。目的が定まっていないために、構造化できない。将来利用される可能性があるデータをひとまず非構造化データのまま格納する。
- データレイクが得意とするのはセンサーのログやGPSデータ、SNSのテキストなどビジネスに関連して時々刻々と生み出されるようないわば生のデータを統合して取り扱うソリューション。
- ELT(抽出、格納、変換)
メリット
- データを元の形式のまま取り込んでいくため、データの蓄積自体が非常に容易。
- すべてのデータを集約してプールしておくので、必要なデータは必ずその中から探し出すことができる。
デメリット
- 非構造化データは大抵、ファイルサイズが大きく、量も膨大になる。
- 様で大量なデータから必要データのみを抽出し目的に合わせて整理する、といった活用のための作業には、特殊な技術やツールが必要となる。
使用例
- AI・機械学習を導入したい
- 非構造化データを活用したい
- データサイエンティストが探索的に分析できる環境が欲しい
- 低コストで分析基盤を作りたい
- 最新のデータを素早く分析したい
データウェアハウスとは?
- 社内の各種アプリケーションやデータベースに保管された規則性を持った構造化データを収集し、目的別に定義された形に統合・格納して、分析業務で利用するためのデータストア。
- データの分析要件にもとづきデータモデルを設計、事前定義し、それに併せて必要なデータを収集、加工、統合して格納しておくというプロセスが必要。
- 企業内で営業や経営(経理)など部署ごとに分かれた複数の業務システムやデータベースからデータを集約し、集められたデータはサブジェクト(主題)ごとに、時系列に従って分解・整理して蓄積していく。
- ETL(抽出、変換、格納)
メリット
- データが最初から構造化されているため、抽出・分析といった作業はスピーディかつ効率的に行うことができる。
- CPUやメモリなどハードウェア面でのリソースの消費も最小限に抑えることが可能。
- データ統合という面では、社内のさまざまな部門のデータが集約されるので、必要なデータを探すために各部門からデータを取り寄せるといった手間を省くことができる。
- 通常のデータベースと違って、更新される前の情報や一定期間が過ぎた情報もすべて履歴や古い情報として残す。そのため長期間にわたる時間軸に沿ったデータの変化なども読み取ることができる。
デメリット
- あらかじめ決められたデータしか扱わず、定型的な分析しかできない
- インデックスを作るため記憶媒体内でインデックスデータが肥大化していき、その結果、データベース自体も肥大化してスピードが落ち、メンテナンスコストなどが上昇する
使用例
- データベースにデータが蓄積されているものの、ビジネスにデータが活用できていない
- 構造化されているデータのみ保有しており、非構造化データを持つ予定はない
- 部門間で異なるシステムを使っており、統合的なデータ分析基盤が必要とされている
このような違いになります。
データの保存の方法が全然違うのですね。
どっちを今使うべきか考えて、利用しないといけないですね。
では、今回はデータレイクとデータウェアハウスについてでした!