Apache Spark BatchのtDynamoDBInputプロパティ - Cloud - 8.0

Amazon DynamoDB

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > Amazonサービス > Amazon DynamoDB
データガバナンス > サードパーティーシステム > Amazonサービス > Amazon DynamoDB
データクオリティとプレパレーション > サードパーティーシステム > Amazonサービス > Amazon DynamoDB
Last publication date
2024-02-28

これらのプロパティは、 Spark Batchジョブのフレームワークで実行されているtDynamoDBInputを設定するために使われます。

Spark BatchtDynamoDBInputコンポーネントは、データベースファミリーに属しています。

このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。

基本設定

[Use an existing connection] (既存の接続を使用)

定義済みの接続の詳細を再利用する場合は、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。

[Inherit credentials from AWS role] (AWSロールから認証情報を継承)

インスタンスプロファイル認証情報を使用する場合は、このチェックボックスをオンにします。これらの認証情報はAmazon EC2インスタンスに使用できます。また、Amazon EC2メタデータサービス経由で配信されます。このオプションを使用するには、ジョブがAmazon EC2内で、または、リソースへのアクセスにIAMロールを利用できるその他のサービス内で実行されている必要があります。詳細は、Using an IAM Role to Grant Permissions to Applications Running on Amazon EC2 Instancesをご覧ください。

注: このオプションは、[Use existing connection] (既存の接続を使用)がオフの場合に使用できます。

[Access Key] (アクセスキー)

AWSアカウントを一意に識別するアクセスキーIDを入力します。アクセスキーとシークレットキーを取得する方法は、http://docs.aws.amazon.com/ses/latest/DeveloperGuide/get-aws-keys.htmlGetting Your AWS Access Keysをご覧ください。

注: このオプションは、[Use an existing connection] (既存の接続を使用)[Inherit credentials from AWS role] (AWSロールから認証情報を継承)がオフの場合に使用できます。

[Secret Key] (シークレットキー)

シークレットキーを入力します。シークレットキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。

シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

注: このオプションは、[Use an existing connection] (既存の接続を使用)[Inherit credentials from AWS role] (AWSロールから認証情報を継承)がオフの場合に使用できます。

[Region] (リージョン)

リストからリージョン名を選択するか、リスト内で二重引用符の間にリージョンを入力して("us-east-1"など)、AWSリージョンを指定します。AWSリージョンの詳細の詳細は、Regions and Endpointsをご覧ください。

[Use End Point] (エンドポイントを使用)

このチェックボックスをオンにし、表示された[Server Url] (サーバーのURL)フィールドで、DynamoDBデータベースサービスのWebサービスのURLを指定します。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

 

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Table Name] (テーブル名)

データを読み取るテーブルの名前を指定します。

詳細設定

[Number of scan segments] (スキャンセグメント数)

引用符を使わずに、並列スキャンのセグメント数を入力します。

[Number of partitions] (パーティションの数)

Spark executorがデータを並列処理できるように、Sparkが入力データを分割するパーティションの最大数を引用符を使わずに入力します。セグメント数以下の数を置くことをお勧めします。

[Throughput read percent] (スループット読み取りパーセント)

引用符を使わずに、Amazonで事前に定義された読み取り容量の使用率(10進数で表示)を入力します。残りの容量は、Talendアプリケーション以外のほかのアプリケーションのために節約されています。この読み取り容量の詳細は、読み取りのスループットをプロビジョニングするをご覧ください。

詳細設定

プロパティを追加して、tDynamoDBInputにデータの読み取り時に実行させる追加のオペレーションを定義します。

この表はコンポーネントの将来の進化のために存在し、それを使うにはDynamoDB開発の高度な知識が必要です。現在、ユーザーが設定できる興味深いプロパティはありません。

使用方法

使用ルール

このコンポーネントは、開始コンポーネントとして使用され、出力リンクを必要とします。

このコンポーネントは、DynamoDBデータベースに接続するために同じジョブ内にあるtDynamoDBConfigurationコンポーネントを使う必要があります。このコンポーネントの横にtDynamoDBConfigurationコンポーネントをドロップし、このコンポーネントの[Basic settings] (基本設定)を設定してtDynamoDBConfigurationを使う必要があります。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。