Apache Spark BatchのtCassandraConfigurationプロパティ - 7.3

Cassandra

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > NoSQLコンポーネント > Cassandra
データガバナンス > サードパーティーシステム > NoSQLコンポーネント > Cassandra
データクオリティとプレパレーション > サードパーティーシステム > NoSQLコンポーネント > Cassandra

このプロパティはSpark Batchジョブフレームワークで実行されているtCassandraConfigurationを設定するために使います。

Spark Batch tCassandraConfigurationコンポーネントはストレージファミリーとデータベースファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のサブスクリプションTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Property type] (プロパティタイプ)

[Built-In] (組み込み)または[Repository] (リポジトリー)のいずれか。

[Built-In] (組み込み): プロパティデータは一元的に保存されません。

[Repository] (リポジトリー): プロパティを保存するリポジトリーファイルを選択します。

[Host] (ホスト)

ジョブを接続する必要があるCassandraサーバーのURLを入力します。

[Port] (ポート)

接続先Cassandraサーバーのリッスンポート番号を入力します。

Username (ユーザー名)

このフィールドにCassandra認証のユーザー名を入力します。

Password (パスワード)

このフィールドにCassandra認証のパスワードを入力します。

パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

設定

このテーブルにCassandraに関連するSparkのプロパティを追加し、実行時にデフォルト値を上書きするために使用する値を指定する必要があります。
  • たとえば、読み取りにおけるCassandraの一貫性レベルを定義する必要がある場合は、[Property name] (プロパティ名)カラムで[input_consistency_level]プロパティを選択し、[Value] (値)カラムに数値レベルの値を入力します。

以下のリストは、入力できる数値と、その値で示される一貫性レベルを示しています:

  • 0: ANY、

  • 1: ONE、

  • 2: TWO、

  • 3: THREE、

  • 4: QUORUM、

  • 5: ALL、

  • 6: LOCAL_QUORUM、

  • 7: EACH_QUORUM、

  • 8: SERIAL、

  • 9: LOCAL_SERIAL、

  • 10: LOCAL_ONE

各整合性ポリシーの詳細は、Cassandraに関するDatastaxのドキュメントを参照してください。

このテーブルに記載されているすべてのプロパティとそのデフォルト値の詳細は、https://github.com/datastax/spark-cassandra-connector/blob/master/doc/1_connecting.mdを参照してください。

使用方法

使用ルール

このコンポーネントは、他のコンポーネントに接続せずに使用されます。

実行時に全体のジョブによって設定が使用されるように、同じジョブで実行されるCassandra関連のサブジョブと共にtCassandraConfigurationをドロップする必要があります。

このコンポーネントは、所属するSpark Batchコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメントのシナリオでは、[Standard] (標準)ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark Configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): tHDFSConfigurationまたはtS3Configurationなど、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。