こんにちは!
スタッフ19号です!
データレイクについて調べていると、ETL,ELTという言葉が出てきたのですが、
あまり違いが分からないのでこのタイミングで調べてみようと思います!
まず、言葉の意味を見ていきます。
- ETL:Extract:抽出 → Transform:変換・加工 → Load:送出
- ELT:Extract:抽出 → Load:受け取り → Transform:変換
ということで、最初は同じですが、その後の工程が違うことがぱっと見で分かります。
では、更に詳しく何が違うのかを見たいと思います。
ETLとは
- 送出先のDBやExcelファイルがデータを取扱いやすくするためのデータ連携ツール
- さまざまなデータを利用しやすい形に変えて保管する工程のこと
- データを収集・編集し、利用しやすい統一されたデータベースとして保存することで、効率化を図る(このとき保存されるデータベースは主にDWH)
- 社内データを有効活用するためのBI(Business Intelligence)ツールで使われる
- 大量のデータを1つに集約して分析することで、企業の意思決定などに活用できる
ELTとは
- データを受け取るDBやDWH、データレイク自体が持つ機能の一つ
- 専用ツールを使って変換したデータをDWHなどのデータベースに保存
- データベースにデータを保存してから、データベース内で変換処理を行う
- 変換処理を行うための専用エンジンは不要
- データの取り込みスピードが速い
- データベースにかかる負荷が大きくなる
ETLをお勧めする場面
- より高度な分析機能を活用したい場合
- データ格納段階で機密情報の保護や削除に対応したい場合
- データベースに高い負荷をかけたくない場合
- データベースの容量を拡張できない場合
- SQLなどを扱えるデータベースエンジニアが社内に居ない場合
ELTをお勧めする場面
- データの取り込みスピードを重視する場合
- 大量のデータを分析の対象にしたい場合
- データベースの容量を自由に拡張できる場合
- ETLツールの理解に学習コストをかけたくない場合
などがあるみたいです。
ETLやELTを導入する場合、それぞれの特徴を理解した上で自分に合うものを選ぶことが重要になるみたいです。
ぱっと見は似ているけれど、意味は全然違うというのは他にもよく出てくると思うので、その都度頑張って覚えていきたいと思います!
以上!スタッフ19号でした。