最終更新
まだ書きかけです!
AWS Glue・Azure Data Factory・GCP Cloud Dataflow など、データを取り込み、加工し、保存する ETL サービスの比較して解説します。
ETL とは
ETL とは Extract・Transform・Load) の略で、
- Extract: 外部データを抽出
- Transform: 必要に応じてデータを変換・加工
- Load: データウェアハウスなどに変換・加工したデータをロード
といった典型的な処理を指す用語です。
ETL はクラウド以前からある用語で、Wikipedia 曰く1970年からあるそうです。 さまざまなツールがあり、例えばアプレッソ社の DataSpider は「70万円より」だそうですが、 保守サポートが必要な部類の製品ですので、実際には年間数百万〜数千万円といった程度かと思います。
ETL ツールが必要な理由
DB からデータを取得して、加工し、DB に入れる。 「ただこれだけのことに「ETL」なんて名前を付けるなんて大げさな。プログラムを書けば数十〜数百行じゃないのか」と思われる方もいるかと思います。たしかに小規模データならそれでもいいでしょう。 しかしながら、大量データ・多種類データ・多フォーマット・リアルタイム性も必要となってくると、 スクラッチ開発は不可能とまではいいませんが、開発に時間がかかってしまいます。
さらにクラウド時代になってくると、大量データを並列処理でさばくことが求められ、さらに難易度はあがあります。 ETL ツールの第一目的は、開発のスピードを上げることだと言えるでしょう。
ETL 比較表
機能比較表をまとめてみました。 詳細は後述。
この場所には ↓ にある表が自動的にしゅっとまとめられるはずですが、この文章が見えているということは Javascript がうまく動いていないということなので、その場合は教えてもらえるとありがたいです。
「料金・コスト・請求」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
料金・コスト・請求 | | | インスタンスサイズ・インスタンス数 |
「 画面で構築 」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
画面で構築 | ○ | | × |
「 入力・出力 」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
入力 | | | |
出力 | | | |
「 処理能力 」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
処理能力 | DPU 指定 | | インスタンスタイプ・インスタンス数 |
「オートスケール」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
オートスケール | | | 〇 |
「定時起動」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
定時起動 | ○ | | × |
AWS Glue は、cron 形式でジョブを定時起動させることができます。
「 ワークフロー機能 」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
ワークフロー機能 | ○ | | × (Cloud Composer の領域) |
「 依存関係 」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
依存関係 | | | |
「言語」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
言語 | Scalar, Python | . | Java, Python |
「ストリーミング・バッチ」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
ストリーミング・バッチ | . | . | ストリーミング・バッチ |
「エラー通知」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
エラー通知 | | | |
「リトライ」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
リトライ | 3回 | | 4回 |
「SLA」について
– | AWS Glue | Azure Data Factroy | Google Dataflow |
---|
SLA | | | |