ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Atlus接続設定を完成させます。この設定はジョブごとに有効です。
このタイプのクラスターでは、Yarnクラスターモードしか使用できません。
このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。
始める前に
前提条件:
-
Cloudera Altus CLIをLinuxにインストールするには、Clouderaドキュメンテーションの Cloudera Altus Client Setup for Linuxをご覧ください。
-
Cloudera Altus CLIをWindowsにインストールするには、ClouderaキュメンテーションのCloudera Altus Client Setup for Windowsをご覧ください。
手順
-
ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Cloudera Altusに基本的な接続情報を入力します。
[Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使います。 注:- このチェックボックスをオフにすると、SparkによってUTCタイムゾーンが使用されます。
- コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンを継承します。
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます: - チェックボックスを選択する場合は、ジョブ内のコンポーネントはDSで実行されて、パフォーマンスが向上します。
- チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。注: 7.3で新しく作成されたジョブはDSを使用し、7.3以前のバージョンからインポートされたジョブはデフォルトでRDDを使用します。しかし、すべてのコンポーネントがRDDからDSに移行されないため、デフォルトでエラーを避けるには、チェックボックスをオフにすることをお勧めします。[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付で java.sql.Timestamp
使われます。注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestamp
かjava.sql.Date
が使われます。Force Cloudera Altus credentials (Cloudera Altus認証情報を使用)
このチェックボックスをオンにして、ジョブに認証情報を提供します。
たとえば、端末で
altus configure
コマンドを手動で入力して、認証情報を個別に提供する場合は、このチェックボックスをオフにします。[Path to Cloudera Altus CLI] (Cloudera Altus CLIパス)
ジョブが実行されるマシンにインストールし、有効にしたCloudera Altusクライアントへのパスを入力します。本番環境の場合、このマシンは通常、Talendジョブサーバーです。
-
使用する仮想Clouderaクラスターを設定します。
[Use an existing Cloudera Altus cluster] (既存Cloudera Altusクラスターを使用)
クラウドサービスの既存のCloudera Altusクラスターを使用する場合は、このチェックボックスをオンにします。それ以外の場合は、ジョブをクラスター上で即座に作成できるように、このチェックボックスをh外します。
このチェックボックスをオンにすると、クラスター名のパラメーターだけが使用可能になり、クラスター設定のその他のパラメーターは非表示になります。
[Cluster name] (クラスター名)
使用するクラスターの名前を入力します。
[Environment] (環境)
特定のクラスターに割り当てたリソースの説明に使用する、Cloudera Altus環境の名前を入力します。
どの環境を選択したら良いかわからない場合は、Cloudera Altus管理者にお問い合わせください。
[Delete cluster after execution] (実行後にクラスターを削除)
ジョブの実行後に特定のクラスターを削除する場合は、このチェックボックスをオンにします。
[Override with a JSON configuration] (JSON設定で上書き)
クラスターの設定用に表示された[Custom JSON] (カスタムJSON)フィールドでJSONコードを手動で編集する場合は、このチェックボックスをオンにします。
[Instance Type] (インスタンスの種類)
クラスター内のインスタンスのタイプを選択します。このクラスターに展開されたすべてのノードで同じインスタンスタイプが使用されます。
[Worker node] (ワーカーノード)
クラスター用に作成するワーカーノードの数を入力します。
ワーカーノードで許可される数の詳細は、[the documentation of Cloudera Altus] (Cloudera Altusのドキュメンテーション)をご覧ください。
[Coudera Manager username] (Coudera Managerユーザー名)と[Cloudera Manager password] (Coudera Managerのパスワード)
Coudera Managerサービスの認証情報を入力します。
[SSH private key] (SSHプライベートキー)
Cloudera Altus環境で指定したリージョンにSSHプライベートキーをアップロードして登録するために、SSHプライベートキーへのパスを参照または入力します。
Cloudera AltusのData Engineeringサービスはこのプライベートキーを使って、使用するクラスターのインスタンスにアクセスし、設定を行います。
[Custom bootstrap script] (カスタムブートストラップスクリプト)
自分で提供するブートストラップスクリプトでクラスターを作成する場合は、このスクリプトに移動するか、または[Custom Bootstrap script] (カスタムブートストラップスクリプト)フィールドにパスを入力します。
Altusブートストラップスクリプトの例は、Clouderaドキュメンテーションの[Install a custom Python environment when creating a cluster] (クラスターの作成時にカスタムPython環境をインストールする)をご覧ください。
-
[Cloud provider] (クラウドプロバイダー)リストから、Cloudera Altusクラスターを実行するクラウドサービスを選択します。
-
クラウドプロバイダーがAWSの場合は[AWS]を選択し、ジョブ依存関係を保存するAmazon S3ディレクトリーを定義します。
AWS
-
[Access key] (アクセスキー)と[Secret key] (シークレットキー): 使用するAmazon S3バケットへの接続に必要な認証情報を入力します。
パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。
-
リストからリージョン名を選択するか、リスト内で二重引用符の間にリージョンを入力して("us-east-1"など)、AWSリージョンを指定します。AWSリージョンの詳細の詳細は、Regions and Endpointsをご覧ください。
-
[S3 bucket name] (S3バケット名): ジョブの依存項目を保存するために使用するバケットの名前を入力します。既存のバケットを用意しておく必要があります。
-
[S3 storage path] (S3保存パス): この特定のバケット内に保存したジョブの従属環境のディレクトリー(altus/jobjarなど)を入力します。このディレクトリーは、ランタイム時にまだなかった場合は作成されます。
ここで指定するAmazon S3は、ジョブの依存関係を保存する目的でのみ使用されます。実際のデータをホストするS3システムに接続するには、ジョブでtS3Configurationコンポーネントを使用します.
-
-
クラウドプロバイダーがAzureの場合は[Azure]を選択し、ジョブ依存項目をAzure Data Lake Storageに保存します。
-
Azureポータルで、ジョブがAzure Data Lake Storageへのアクセスに使用するAzureアプリケーションに読み取り/書き込み/実行の権限を割り当てます。権限を割り当てる方法の詳細は、Azureのドキュメンテーションである[Assign the Azure AD application to the Azure Data Lake Storage account file or folder] (Azure ADアプリケーションをAzure Data Lake Storageのアカウントファイルまたはフォルダーに割り当てる)をご覧ください。例:
適切な権限がない場合は、ジョブ依存項目をAzure Data Lake Storageに転送できません。
-
Altusコンソールで、Altus環境に使用されているData Lake Storage AADのグループ名を[Instance Settings] (インスタンス設定)セクションで特定します。
-
Azureポータルで、Azureのドキュメンテーションである [Assign the Azure AD application to the Azure Data Lake Storage account file or folder] (Azure ADアプリケーションをAzure Data Lake Storageのアカウントファイルまたはフォルダーに割り当てる)で説明している同じ手順を使用して、このAADグループに読み取り/書き込み/実行の権限を割り当てます。
適切な権限がない場合は、ジョブ依存項目をAzure Data Lake Storageに転送できません。
-
[Spark configuration] (Spark設定)タブで、Azure Data Lake Storageへの接続を設定します。
[Azure] (テクニカルプレビュー)
-
[ADLS account FQDN] (ADLSアカウントFQDN):
使用するAzure Data Lake Storageアカウントのスキーム部分を除いてアドレスを入力します。例: ychendls.azuredatalakestore.net。
このアカウントはAzureポータル内に既に存在する必要があります。
-
[Azure App ID] (AzureアプリケーションID)と[Azure App key] (Azureアプリケーションキー):
[Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、開発中である現行のジョブがAzure Data Lake Storageへのアクセスに使うアプリケーションを登録する際に生成された認証IDと認証キーをそれぞれ入力します。
このアプリケーションは、前の手順でAzure Data Lake Storageへのアクセス権を割り当てたアプリケーションである必要があります。
-
[Token endpoint] (トークンエンドポイント):
[Token endpoint] (トークンエンドポイント)フィールドで、Azureポータルの[App registrations] (アプリの登録)ページの[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーして貼り付けます。
-
ここで指定するAzure Data Lake Storageは、ジョブの依存項目だけを保存するために使用されます。実際のデータをホストするAzureシステムに接続するには、ジョブでtAzureFSConfigurationコンポーネントを使用します。
-
-
- [Wait for the Job to complete] (ジョブの終了を待機)チェックボックスをオンにしてStudio、またはTalendジョブサーバーを使用している場合はジョブJVMで、ジョブの実行完了までジョブの監視を続けます。このチェックボックスをオンにすると、spark.yarn.submit.waitAppCompletionプロパティをtrueに設定したことになります。通常はSpark Batchジョブの実行時にこのチェックボックスをオンにすると便利ですが、Spark Streamingジョブを実行する場合はチェックボックスをオフにしたほうが賢明です。
タスクの結果
-
接続の設定後、必須ではありませんがSparkのパフォーマンスを調整できます。調整する場合は、以下に記載のプロセスに従います。
-
Apache Spark BatchジョブでSparkを調整 (Spark Batchジョブの場合)
-
Apache Spark StreamingジョブでSparkを調整 (Spark Streamingジョブの場合)
-
-
問題が発生した場合にSparkジョブのデバッグや再開ができるよう、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでロギングとチェックポインティングを有効にしておくことをお勧めします:
-
Altus関連のログを参照する必要がある場合は、Cloudera ManagerサービスまたはAltusクラスターインスタンスでご確認ください。