予想される映画データとリジェクトされた映画データをAzure ADLS Gen1フォルダーの別々のディレクトリーに書き込むよう、2つの出力コンポーネントが設定されます。
始める前に
- DatabricksのSparkクラスターが正しく作成され、実行されていることを確認します。詳細は、Azureドキュメンテーションの[Create Databricks workspace] (Databricksワークスペースの作成)を参照してください。
-
Azure Data Lake Storage Gen1システムへのアクセスに使用する認証情報に関するSparkプロパティが各行に追加されていることをご確認ください。
spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
- Azureアカウントを持っています。
- 使用するAzure Blob Storageサービスが適切に作成されました。Azure Active Directorディレクトリーに、それにアクセスするための適切な権限があります。この件はAzureシステムの管理者に問い合わせて確認するか、この記事で「Granting the application to be used the access to your ADLS Gen1 folder」(使用するアプリケーションにADLS Gen1フォルダーへのアクセスを付与)というセクションを参照してください。
手順
-
tAzureFSConfigurationをダブルクリックして、その[Component] (コンポーネント) ビューを開きます。
例
-
Azure FileSystemドロップダウンリストで、Azure Datalake Storageを選択します。Azure ADLS Gen2に固有のパラメーターが表示されます。
-
[Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、アプリケーションの登録時に生成され、現在開発中のジョブがAzure Data Lake Storageへのアクセスに使用する認証IDと認証キーをそれぞれ入力します。
-
Azureポータルの[App registrations] (アプリの登録)ページにある[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーし、[Token endpoint] (トークンエンドポイント)フィールドに貼り付けます。
-
out1リンクを受け取るtFileOutputParquetコンポーネントをダブルクリックします。
[Basic settings] (基本設定)ビューがStudioの下側に開きます。
-
[Define a storage configuration component] (ストレージ設定コンポーネントを定義する)チェックボックスを設定して、使用するADLS Gen2ファイルシステムに接続するために、tAzureFSConfigurationによって提供される設定を再利用します。
-
[Folder/File] (フォルダー/ファイル)フィールドで、結果を書き込む必要のあるディレクトリーを入力します。このシナリオでは/ychen/movie_libraryです。動画のディレクターの名前を含むレコードがここに入ります。
-
[Action] (アクション)ドロップダウンリストから[Overwrite] (上書き)を選択します。このようにして、ターゲットディレクトリーが存在すれば上書きされます。
-
同じ操作を繰り返して、[reject] (拒否)リンクの受信に使用される他のtFileOutputParquet コンポーネントを設定しますが、[Folder/File] (フォルダー/ファイル)フィールドのディレクトリーを/ychen/movie_library/rejectに設定します。
-
[Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックしてビューを開きます。
-
[Use local mode] (ローカルモードの使用)チェックボックスをオフにします。
-
[Property Type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックして[Repository Content] (リポジトリーコンテンツ)リストから以前にビッグデータプラットフォームに接続を設定で定義したmovie_library接続メタデータを選択します。
-
[OK]をクリックして選択を確定します。[Spark configuration] (Spark設定)タブのフィールドには、この接続メタデータのパラメーターが自動的に入力されます。
-
[F6]を押してジョブを実行します。
タスクの結果
[Run] (実行)ビューがStudioの下側に自動的に開きます。
完了すると、たとえばMicrosoft Azure Storage Explorerで、出力がADLS Gen1フォルダーに書き込まれていることを確認できます。