Talend Data PreparationやTalend Pipeline Designerによるデータのクリーンアップと変換 - Cloud

Snowflake版Talend Cloud Data Inventory入門ガイド

EnrichVersion
Cloud
EnrichPlatform
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
task
データガバナンス

Talend Cloud Data Inventoryに追加したデータセットは、パイプラインのソースやプレパレーションの材料として簡単に使用できます。

データセットリストとデータセット詳細ビューでは、他のTalend Cloudアプリケーション(Talend Cloud Pipeline DesignerとTalend Cloud Data Preparation)の直接のエントリーポイントとなるため、データアセットをシームレスにクレンジングしたり、さらに変換したりできます。このような操作がTalend Trust Scoreにつながります。

  • Talend Cloud Data Preparationは、分析やその他のデータドリブンタスクのためにデータを準備するという手間も時間もかかるプロセスを情報担当者が簡素化・迅速化できるセルフサービスアプリケーションです。このツールのさまざまな機能を使うことで、データに対してクレンジング、標準化、シェーピング操作を行ったり、発見機能やプロファイリング機能も活用したりできます。
  • Talend Cloud Pipeline Designerは、簡単かつ強力な方法で大量データの処理を実現する柔軟性の高い最新型のインテグレーションツールです。ツールではWebベースによるグラフィカルなユーザーインターフェイスが提供されており、複雑なエンドツーエンドのパイプラインを作成したり、スキーマオンリードフレームワークを使って保存データや実行データを即座に処理したり、実行データをライブプレビュー機能で表示したりできます。

手順

  1. データセットからパイプラインやプレパレーションを作成する場合は、オプションがいくつかあります。
    • データセットリストで、プレパレーションのソースマテリアルとして使うデータセットの上にマウスを置きます。
    • データセット詳細ビューから、サブヘッダーバーの右上に移動します。
    • データセットビューから、[Pipelines] (パイプライン)タイルか[Preparations] (プレパレーション)タイルに移動します。
  2. ここからは次の操作が可能です。
    • このデータセットをソースとしてパイプラインのデザインを開始する場合は、Talend Cloud Pipeline Designerアイコンをクリックするか、[Pipelines] (パイプライン)タイルに移動します。
    • このデータをソースマテリアルとしてプレパレーションでの作業を開始する場合は、Talend Cloud Data Preparationアイコンをクリックするか、[Preparations] (プレパレーション)タイルに移動します。
      警告: Talend Cloud Data Preparationでは階層型データセットがサポートされておらず、そこからプレパレーションを作成することはできません。
    選択したアプリケーションに応じて、このデータセットから作成された既存のパイプラインまたはプレパレーションが作成者と共にリスト表示されます。

    プレパレーションの場合は、既存のプレパレーションのリストだけでなく、互換性があるプレパレーションのリストも表示できます。これらのプレパレーションは現在選択しているデータセットと同じモデルを持つデータセットで作成されており、[Use] (使用)ボタンをクリックすれば直接適用できます。

  3. [Add] (追加)をクリックすると、新しいパイプラインやプレパレーションが作成されます。

タスクの結果

専用アプリが開き、パイプラインやプレパレーションの作成を開始できます。
注: データセットをパイプラインやプレパレーションのソースとして使用している場合、そのパイプラインやプレパレーションが削除される前にデータセットを削除することはできません。