Azure ADLS Gen1への出力の書き込み - 7.3

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
予想される映画データとリジェクトされた映画データをAzure ADLS Gen1フォルダーの別々のディレクトリーに書き込むよう、2つの出力コンポーネントが設定されます。

始める前に

  • DatabricksのSparkクラスターが正しく作成され、実行されていることを確認します。詳細は、Azureドキュメンテーションの「[Create Databricks workspace] (Databricksワークスペースの作成)」を参照してください。
  • Azure Data Lake Storage Gen1システムへのアクセスに使用する資格情報に関するSparkプロパティが各行に追加されていることを確認してください。
    spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
    spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
    spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
    spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
  • Azureアカウントを持っています。
  • 使用するAzure Blob Storageサービスが適切に作成されました。Azure Active Directorディレクトリーに、それにアクセスするための適切な権限があります。この件はAzureシステムの管理者に問い合わせて確認するか、この記事で「Granting the application to be used the access to your ADLS Gen1 folder」(使用するアプリケーションにADLS Gen1フォルダーへのアクセスを付与)というセクションを参照してください。

手順

  1. tAzureFSConfigurationをダブルクリックして、その[Component] (コンポーネント) ビューを開きます。

    例え

  2. Azure FileSystemドロップダウンリストで、Azure Datalake Storageを選択します。Azure ADLS Gen2に固有のパラメーターが表示されます。
  3. [Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、アプリケーションの登録時に生成され、現在開発中のジョブがAzure Data Lake Storageへのアクセスに使用する認証IDと認証キーをそれぞれ入力します。
  4. Azureポータルの[App registrations] (アプリ登録)ページにある[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーし、[Token endpoint] (トークンエンドポイント)フィールドに貼り付けます。
  5. out1リンクを受け取るtFileOutputParquetコンポーネントをダブルクリックします。

    [Basic settings] (基本設定)ビューがStudioの下側に開きます。

  6. [Define a storage configuration component] (ストレージ設定コンポーネントを定義する)チェックボックスを設定して、使用するADLS Gen2ファイルシステムに接続するために、tAzureFSConfigurationによって提供される設定を再利用します。
  7. [Folder/File] (フォルダー/ファイル)フィールドで、結果を書き込む必要のあるディレクトリーを入力します。このシナリオでは/ychen/movie_libraryです。動画のディレクターの名前を含むレコードがここに入ります。
  8. [Action] (アクション)ドロップダウンリストから[Overwrite] (上書き)を選択します。このようにして、ターゲットディレクトリーが存在すれば上書きされます。
  9. 同じ操作を繰り返して、[reject] (拒否)リンクの受信に使用される他のtFileOutputParquet コンポーネントを設定しますが、[Folder/File] (フォルダー/ファイル)フィールドのディレクトリを/ychen/movie_library/rejectに設定します。
  10. [Run] (実行)ビューで[Spark Configuration] (Spark設定)タブをクリックしてビューを開きます。
  11. [Use local mode] (ローカルモードの使用)チェックボックスをクリアします。
  12. [Property Type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックして[Repository Content] (リポジトリーコンテンツ)リストから以前にビッグデータプラットフォームへの接続のセットアップで定義したmovie_library接続メタデータを選択します。
  13. [OK]をクリックして選択を確定します。[Spark Configuration] (Spark設定)タブのフィールドには、この接続メタデータのパラメーターが自動的に入力されます。
  14. [F6]を押してジョブを実行します。

タスクの結果

[Run] (実行)ビューがStudioの下側に自動的に開きます。

完了すると、たとえばMicrosoft Azure Storage Explorerで、出力がADLS Gen1フォルダーに書き込まれていることを確認できます。