Apache Spark StreamingのtDynamoDBLookupInputプロパティ - Cloud - 8.0

Amazon DynamoDB

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > Amazonサービス > Amazon DynamoDB
データガバナンス > サードパーティーシステム > Amazonサービス > Amazon DynamoDB
データクオリティとプレパレーション > サードパーティーシステム > Amazonサービス > Amazon DynamoDB
Last publication date
2024-02-28

これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtDynamoDBLookupInputを設定するために使われます。

Spark StreamingtDynamoDBLookupInputコンポーネントは、データベースファミリーに属しています。

このフレームワーク内のコンポーネントは、Talend Real-Time Big Data PlatformおよびTalend Data Fabricで使用できます。

基本設定

[Use an existing connection] (既存の接続を使用)

定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。

[Access Key] (アクセスキー)

AWSアカウントを一意に識別するアクセスキーIDを入力します。アクセスキーとシークレットキーを取得する方法は、http://docs.aws.amazon.com/ses/latest/DeveloperGuide/get-aws-keys.htmlGetting Your AWS Access Keysをご覧ください。

[Secret Key] (シークレットキー)

シークレットキーを入力します。シークレットキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。

シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

Region

リストからリージョン名を選択するか、リスト内で二重引用符の間にリージョンを入力して("us-east-1"など)、AWSリージョンを指定します。AWSリージョンの詳細の詳細は、Regions and Endpointsをご覧ください。

[Use End Point] (エンドポイントを使用)

このチェックボックスをオンにし、表示された[Server Url] (サーバーのURL)フィールドで、DynamoDBデータベースサービスのWebサービスのURLを指定します。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

 

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Table Name] (テーブル名)

ルックアップデータを抽出するテーブルの名前を指定します。

[Advanced key condition expression] (高度なキー条件式)

テーブルまたはインデックスから読み取る項目を決定するために使用されるキー条件式を入力します。

クエリーの結果には、tMapで使用する結合キーに一致するレコードのみ含まれていなければなりません。言い換えれば、一致するレコードのみがルックアップフローに読み取られるSQLステートメントを作成するため、メインフローのスキーマをtMapで使用する必要があります。

この方式では、重複レコードはメモリに読み取られず、後続のコンポーネントに出力されます。

[Value mapping] (値のマッピング)

式の属性値のプレースホルダーを指定します。

  • [value] (値): 式の属性値を入力します。

  • [placeholder] (プレースホルダー): 対応する値のプレースホルダーを指定します。

詳細は、式の属性値をご覧ください。

[Die on error] (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。

詳細設定

[Advanced properties] (詳細プロパティ)

プロパティを追加して、tDynamoDBInputにデータの読み取り時に実行させる追加のオペレーションを定義します。

この表はコンポーネントの将来の進化のために存在し、それを使うにはDynamoDB開発の高度な知識が必要です。現在、ユーザーが設定できる興味深いプロパティはありません。

使用方法

使用ルール

このコンポーネントは、開始コンポーネントとして使用され、出力リンクを必要とします。

このコンポーネントは、DynamoDBデータベースに接続するために同じジョブ内にあるtDynamoDBConfigurationコンポーネントを使う必要があります。このコンポーネントの横にtDynamoDBConfigurationコンポーネントをドロップし、このコンポーネントの[Basic settings] (基本設定)を設定してtDynamoDBConfigurationを使う必要があります。

このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。