LoginSignup
16
17

More than 3 years have passed since last update.

AWS Glueの概要を図と用語で整理する

Last updated at Posted at 2019-06-25

AWS Glueをざっくりと理解するために基本的な概念とコンポーネントを、図と用語で整理してみます。

AWS Glueとは?

  • フルマネージド・ETL&データカタログツール
    • ETL = どっかからデータ引っ張って、いい感じに変換してどっかに突っ込むこと
    • データカタログ = データ活用をしやすくするためのメタデータの目録

ざっくりとした概念図

image.png

特徴

  • サーバレス
  • 高セキュリティ
  • etc..

用語

  • データストア
    • S3, DynamoDB, RDBなど
  • データソース
    • Glueへの入力に使われるデータストア
  • データターゲット
    • Glueからの出力に使われるデータストア
  • データカタログ(Data Catalog)
    • Glueを利用するための箱
    • ジョブ、メタデータ(データベース,テーブル)などGlueに関わるコンポーネントはすべてここに含まれる
    • 1AWSアカウントの1リージョンにつき、1データカタログ
  • データベース
    • データカタログに含まれる。テーブル等をまとめておくもの。
  • テーブル
    • データベースに含まれる
    • データソースについてのメタデータを格納したもの
    • あくまでメタデータを格納しており、実際のデータは含まない
  • 分類子
    • データのスキーマを決定する
  • その他の用語

メモ

  • テーブルは手動(またはCloudformation等)でも作成できるが、クローラから作成するのがミスが少なくて良い
  • CloudformationはデータソースにDynamoDBを使用したクローラの作成には未対応(2019/06現在)
    • というかDynamoDBはいろいろ未対応。まだDynamoDBには少々使いづらい印象。
16
17
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
17