メイン コンテンツをスキップする 補完的コンテンツへスキップ

Azure DLS Gen2からAzure Synapseへのデータの一括ロード

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    ADLS Gen2
  3. [Engine] (エンジン)リストでエンジンを選択します。
    情報メモ注:
    • データの高度処理の場合は、Moteur Cloud pour le designではなくMoteur distant Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたMoteur distant Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここではADLS Gen2を選択します。
  5. Azure Data Lake Storage Gen2のプロパティの説明に従って、接続のプロパティを入力し、Azure Data Lake Storage Gen2ファイルシステムにアクセスし、接続をチェックして、[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、データセットに名前を付けます。

    BKO Taxi On ADLS Gen2
  7. 必要なプロパティを入力してストレージアカウントにあるファイルにアクセスし、[View sample] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示します。
    この例では、マリ共和国バマコ市のタクシー料金に関するデータのCSVファイルが、Azureファイルシステムのtalend-fsという名前のtalendフォルダーに取得されます。自分のファイルシステムディレクトリーは、お持ちのAzure Storageアカウントの[ストレージエクスプローラー]ページで表示できます。
  8. 同じようにして、パイプラインの実行時に作成されるAzure Synapseテーブル(この例ではtaxi_data)を追加します。Azure Synapseのプロパティの説明に従って、接続のプロパティを入力します。
  9. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  10. パイプラインに意味のある名前を付けます。

    From ADLS Gen2 to Synapse - trip cost per distance covered
  11. [ADD SOURCE] (ソースを追加)をクリックして、開くパネルでソースデータセット(BKO taxi on ADSL Gen2)を選択します。
  12. をクリックしてパイプラインにプロセッサーを追加します。Type converterを追加すれば、文字列フィールドをint型のフィールドやdouble型のフィールドに変換できます。Field Selectorを追加すれば、一部のレコードの名前を変更できます。Aggregateプロセッサーを追加すれば、走行距離に応じた運賃を計算できます。
  13. オプションとして、最後のプロセッサーをクリックし、処理データをプレビューします。
  14. パイプラインで[ADD DESTINATION] (デスティネーションを追加)アイテムをクリックしてパネルを開き、自分の出力データのロード先となるAzure Blobを選択します。
  15. デスティネーションに意味のある名前(たとえばbulk load to Synapseなど)を付けます。
  16. デスティネーションの[Configuration] (設定)タブで、テーブルで実行したい[Action] (アクション)([Bulk load] (一括ロード))を選択して、使用されるBlob接続を選択します。Azure Blob Storageの設定は、Azure Blob Storageをごご覧ください。
  17. [Save] (保存)をクリックして設定を保存します。
  18. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  19. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、Azure DLS Gen2に保存されていたタクシーの運賃情報は走行距離別に集計され、出力フローはパイプラインの実行時に定義したAzure Synapseテーブルにロードされます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。