Azure ADLS Gen1に出力を書き込む - 7.3

Talend Big Data Platform 入門ガイド

Version
7.3
Language
日本語
Operating system
Big Data Platform
Product
Talend Big Data Platform
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Last publication date
2023-07-24
予想される映画データとリジェクトされた映画データをAzure ADLS Gen1フォルダーの別々のディレクトリーに書き込むよう、2つの出力コンポーネントが設定されます。

始める前に

  • DatabricksのSparkクラスターが正しく作成され、実行されていることを確認します。詳細は、Azureドキュメンテーションの[Create Databricks workspace] (Databricksワークスペースの作成)を参照してください。
  • Azure Data Lake Storage Gen1システムへのアクセスに使用する認証情報に関するSparkプロパティが各行に追加されていることをご確認ください。
    spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
    spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
    spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
    spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
  • Azureアカウントを持っています。
  • 使用するAzure Blob Storageサービスが適切に作成されました。Azure Active Directorディレクトリーに、それにアクセスするための適切な権限があります。この件はAzureシステムの管理者に問い合わせて確認するか、この記事で「Granting the application to be used the access to your ADLS Gen1 folder」(使用するアプリケーションにADLS Gen1フォルダーへのアクセスを付与)というセクションを参照してください。

手順

  1. tAzureFSConfigurationをダブルクリックして、その[Component] (コンポーネント) ビューを開きます。

  2. Azure FileSystemドロップダウンリストで、Azure Datalake Storageを選択します。Azure ADLS Gen2に固有のパラメーターが表示されます。
  3. [Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、アプリケーションの登録時に生成され、現在開発中のジョブがAzure Data Lake Storageへのアクセスに使用する認証IDと認証キーをそれぞれ入力します。
  4. Azureポータルの[App registrations] (アプリの登録)ページにある[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーし、[Token endpoint] (トークンエンドポイント)フィールドに貼り付けます。
  5. out1リンクを受け取るtFileOutputParquetコンポーネントをダブルクリックします。

    [Basic settings] (基本設定)ビューがStudioの下側に開きます。

  6. [Define a storage configuration component] (ストレージ設定コンポーネントを定義する)チェックボックスを設定して、使用するADLS Gen2ファイルシステムに接続するために、tAzureFSConfigurationによって提供される設定を再利用します。
  7. [Folder/File] (フォルダー/ファイル)フィールドで、結果を書き込む必要のあるディレクトリーを入力します。このシナリオでは/ychen/movie_libraryです。映画のディレクターの名前を含むレコードがここに入ります。
  8. [Action] (アクション)ドロップダウンリストから[Overwrite] (上書き)を選択します。このようにして、ターゲットディレクトリーが存在すれば上書きされます。
  9. 同じ操作を繰り返して、[reject] (拒否)リンクの受信に使用される他のtFileOutputParquet コンポーネントを設定しますが、[Folder/File] (フォルダー/ファイル)フィールドのディレクトリーを/ychen/movie_library/rejectに設定します。
  10. [Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックしてビューを開きます。
  11. [Use local mode] (ローカルモードの使用)チェックボックスをオフにします。
  12. [Property Type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックして[Repository Content] (リポジトリーコンテンツ)リストから以前にBig Dataプラットフォームに接続を設定で定義したmovie_library接続メタデータを選択します。
  13. [OK]をクリックして選択を確定します。[Spark configuration] (Spark設定)タブのフィールドには、この接続メタデータのパラメーターが自動的に入力されます。
  14. [F6]を押してジョブを実行します。

タスクの結果

[Run] (実行)ビューがStudioの下側に自動的に開きます。

完了すると、たとえばMicrosoft Azure Storage Explorerで、出力がADLS Gen1フォルダーに書き込まれていることを確認できます。