Cloudera Altus接続パラメーターの定義 - 7.2

Sparkバッチ

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Sparkバッチ

ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Atlus接続設定を完成させます。この設定は、ジョブごとに有効です。

このタイプのクラスターでは、[Yarn cluster] (Yarnクラスター)モードしか使用できません。

このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。

始める前に

前提条件:

Cloudera Altusクライアント、Altus CLIは、ジョブが実行されるマシンにインストールする必要があります。

手順

  1. ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Cloudera Altusへの基本的な接続情報を入力します。

    [Force Cloudera Altus credentials] (Cloudera Altus認証情報を使用)

    このチェックボックスをオンにして、ジョブに認証情報を提供します。

    たとえば、端末でaltus configureコマンドを手動で入力して、認証情報を個別に提供する場合は、このチェックボックスをオフにします。

    [Path to Cloudera Altus CLI] (Cloudera Altus CLIパス)

    ジョブが実行されるマシンにインストールし、有効にしたCloudera Altusクライアントへのパスを入力します。本番環境の場合、このマシンは通常、Talendジョブサーバーです。

  2. 使用する仮想Clouderaクラスターを設定します。

    [Use an existing Cloudera Altus cluster] (既存Cloudera Altusクラスターを使用)

    クラウドサービスの既存のCloudera Altusクラスターを使用する場合は、このチェックボックスをオンにします。それ以外の場合は、ジョブをクラスター上で即座に作成できるように、このチェックボックスをh外します。

    このチェックボックスをオンにすると、クラスター名のパラメーターだけが使用可能になり、クラスター設定のその他のパラメーターは非表示になります。

    [Cluster name] (クラスター名)

    使用するクラスターの名前を入力します。

    [Environment] (環境)

    特定のクラスターに割り当てたリソースの説明に使用する、Cloudera Altus環境の名前を入力します。

    どの環境を選択したら良いかわからない場合は、Cloudera Altus管理者にお問い合わせください。

    [Delete cluster after execution] (実行後にクラスターを削除)

    ジョブの実行後に特定のクラスターを削除する場合は、このチェックボックスをオンにします。

    [Override with a JSON configuration] (JSON設定で上書き)

    クラスターの設定用に表示された[Custom JSON] (カスタムJSON)フィールドでJSONコードを手動で編集する場合は、このチェックボックスをオンにします。

    [Instance Type] (インスタンスの種類)

    クラスター内のインスタンスのタイプを選択します。このクラスターに展開されたすべてのノードで同じインスタンスタイプが使用されます。

    [Worker node] (ワーカーノード)

    クラスター用に作成するワーカーノードの数を入力します。

    ワーカーノードで許可される数の詳細は、『[the documentation of Cloudera Altus] (Cloudera Altusのドキュメンテーション)』を参照してください。

    [Coudera Manager username] (Coudera Managerユーザー名)[Cloudera Manager password] (Coudera Managerのパスワード)

    Coudera Managerサービスの認証情報を入力します。

    [SSH private key] (SSHプライベートキー)

    Cloudera Altus環境で指定したリージョンにSSHプライベートキーをアップロードして登録するために、SSHプライベートキーへのパスを参照または入力します。

    Cloudera AltusのData Engineeringサービスはこのプライベートキーを使って、使用するクラスターのインスタンスにアクセスし、設定を行います。

    [Custom bootstrap script] (カスタムブートストラップスクリプト)

    自分で提供するブートストラップスクリプトでクラスターを作成する場合は、このスクリプトに移動するか、または[Custom Bootstrap script] (カスタムブートストラップスクリプト)フィールドにパスを入力します。

    Altusブートストラップスクリプトの例は、Clouderaドキュメンテーションの『[Install a custom Python environment when creating a cluster] (クラスターの作成時にカスタムPython環境をインストールする)』を参照してください。

  3. [Cloud provider] (クラウドプロバイダー)リストから、Cloudera Altusクラスターを実行するクラウドサービスを選択します。
    • クラウドプロバイダーがAWSの場合は[AWS]を選択し、ジョブ依存関係を保存するAmazon S3ディレクトリーを定義します。

      AWS

      • [Access key] (アクセスキー)[Secret key] (シークレットキー): 使用するAmazon S3バケットへの接続に必要な認証情報を入力します。

        パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

      • リストからリージョン名を選択するか、リスト内で二重引用符の間にリージョンを入力して("us-east-1"など)、AWSリージョンを指定します。AWSリージョンの詳細の詳細は、[Regions and Endpoints] (リージョンとエンドポイント)を参照してください。

      • [S3 bucket name] (S3バケット名): ジョブの依存項目を保存するために使用するバケットの名前を入力します。既存のバケットを用意しておく必要があります。

      • [S3 storage path] (S3保存パス): この特定のバケット内に保存したジョブの従属環境のディレクトリー(altus/jobjarなど)を入力します。このディレクトリーは、ランタイム時にまだなかった場合は作成されます。

      ここで指定するAmazon S3は、ジョブの依存関係を保存する目的でのみ使用されます。実際のデータをホストするS3システムに接続するには、ジョブでtS3Configurationコンポーネントを使用します.

    • クラウドプロバイダーがAzureの場合は[Azure]を選択し、ジョブ依存項目をAzure Data Lake Storageに保存します。

      1. Azureポータルで、ジョブがAzure Data Lake Storageへのアクセスに使用するAzureアプリケーションに読み取り/書き込み/実行の権限を割り当てます。権限を割り当てる方法の詳細は、Azureのドキュメンテーション『[Assign the Azure AD application to the Azure Data Lake Storage account file or folder] (Azure ADアプリケーションをAzure Data Lake Storageのアカウントファイルまたはフォルダーに割り当てる)』を参照してください。例:

        適切な権限がない場合は、ジョブ依存項目をAzure Data Lake Storageに転送できません。

      2. Altusコンソールで、Altus環境に使用されているData Lake Storage AADのグループ名を[Instance Settings] (インスタンス設定)セクションで特定します。

      3. Azureポータルで、Azureのドキュメンテーション『 [Assign the Azure AD application to the Azure Data Lake Storage account file or folder] (Azure ADアプリケーションをAzure Data Lake Storageのアカウントファイルまたはフォルダーに割り当てる)』で説明している同じ手順を使用して、このAADグループに読み取り/書き込み/実行の権限を割り当てます。

        適切な権限がない場合は、ジョブ依存項目をAzure Data Lake Storageに転送できません。

      4. [Spark configuration] (Spark設定)タブで、Azure Data Lake Storageへの接続を設定します。

        [Azure] (テクニカルプレビュー)

        • [ADLS account FQDN] (ADLSアカウントFQDN):

          使用するAzure Data Lake Storageアカウントのスキーム部分を除いてアドレスを入力します。例: ychendls.azuredatalakestore.net

          このアカウントはAzureポータル内に既に存在している必要があります。

        • [Azure App ID] (AzureアプリケーションID)[Azure App key] (Azureアプリケーションキー):

          [Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、開発中である現行のジョブがAzure Data Lake Storageへのアクセスに使うアプリケーションを登録する際に生成された認証IDと認証キーをそれぞれ入力します。

          このアプリケーションは、前の手順でAzure Data Lake Storageへのアクセス権を割り当てたアプリケーションである必要があります。

        • [Token endpoint] (トークンエンドポイント):

          [Token endpoint] (トークンエンドポイント)フィールドで、Azureポータルの[App registrations] (アプリの登録)ページの[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーして貼り付けます。

      ここで指定するAzure Data Lake Storageは、ジョブの依存項目だけを保存するために使用されます。実際のデータをホストするAzureシステムに接続するには、ジョブでtAzureFSConfigurationコンポーネントを使用します。

  4. [Wait for the Job to complete] (ジョブの終了を待機)チェックボックスをオンにしてStudio、またはTalendジョブサーバーを使用している場合はジョブJVMで、ジョブの実行完了までジョブの監視を続けます。このチェックボックスをオンにすると、spark.yarn.submit.waitAppCompletionプロパティをtrueに設定したことになります。通常はSpark Batchジョブの実行時にこのチェックボックスをオンにすると便利ですが、Spark Streamingジョブを実行する場合はチェックボックスをオフにしたほうが賢明です。

タスクの結果