クラウドETL比較解説まとめ (書きかけ)

  • このエントリーをはてなブックマークに追加

最終更新

まだ書きかけです!


AWS Glue・Azure Data Factory・GCP Cloud Dataflow など、データを取り込み、加工し、保存する ETL サービスの比較して解説します。

目次

ETL とは

ETL とは Extract・Transform・Load) の略で、

  • Extract: 外部データを抽出
  • Transform: 必要に応じてデータを変換・加工
  • Load: データウェアハウスなどに変換・加工したデータをロード

といった典型的な処理を指す用語です。

ETL はクラウド以前からある用語で、Wikipedia 曰く1970年からあるそうです。 さまざまなツールがあり、例えばアプレッソ社の DataSpider は「70万円より」だそうですが、 保守サポートが必要な部類の製品ですので、実際には年間数百万〜数千万円といった程度かと思います。

ETL ツールが必要な理由

DB からデータを取得して、加工し、DB に入れる。 「ただこれだけのことに「ETL」なんて名前を付けるなんて大げさな。プログラムを書けば数十〜数百行じゃないのか」と思われる方もいるかと思います。たしかに小規模データならそれでもいいでしょう。 しかしながら、大量データ・多種類データ・多フォーマット・リアルタイム性も必要となってくると、 スクラッチ開発は不可能とまではいいませんが、開発に時間がかかってしまいます。

さらにクラウド時代になってくると、大量データを並列処理でさばくことが求められ、さらに難易度はあがあります。 ETL ツールの第一目的は、開発のスピードを上げることだと言えるでしょう。

ETL 比較表

機能比較表をまとめてみました。 詳細は後述。

この場所には ↓ にある表が自動的にしゅっとまとめられるはずですが、この文章が見えているということは Javascript がうまく動いていないということなので、その場合は教えてもらえるとありがたいです。

「料金・コスト・請求」について

AWS GlueAzure Data FactroyGoogle Dataflow
料金・コスト・請求インスタンスサイズ・インスタンス数

「 画面で構築 」について

AWS GlueAzure Data FactroyGoogle Dataflow
画面で構築×

「 入力・出力 」について

AWS GlueAzure Data FactroyGoogle Dataflow
入力
出力

「 処理能力 」について

AWS GlueAzure Data FactroyGoogle Dataflow
処理能力DPU 指定インスタンスタイプ・インスタンス数

「オートスケール」について

AWS GlueAzure Data FactroyGoogle Dataflow
オートスケール

「定時起動」について

AWS GlueAzure Data FactroyGoogle Dataflow
定時起動×

AWS Glue は、cron 形式でジョブを定時起動させることができます。

「 ワークフロー機能 」について

AWS GlueAzure Data FactroyGoogle Dataflow
ワークフロー機能× (Cloud Composer の領域)

「 依存関係 」について

AWS GlueAzure Data FactroyGoogle Dataflow
依存関係

「言語」について

AWS GlueAzure Data FactroyGoogle Dataflow
言語Scalar, Python.Java, Python

「ストリーミング・バッチ」について

AWS GlueAzure Data FactroyGoogle Dataflow
ストリーミング・バッチ..ストリーミング・バッチ

「エラー通知」について

AWS GlueAzure Data FactroyGoogle Dataflow
エラー通知

「リトライ」について

AWS GlueAzure Data FactroyGoogle Dataflow
リトライ3回4回

「SLA」について

AWS GlueAzure Data FactroyGoogle Dataflow
SLA
  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。

Leave a Reply

*

CAPTCHA