プレパレーションのバージョンを作成 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

以下の例では、データに対していくつかのプレパレーションステップを実行し、2つの異なる時期のバージョンを作成し、バージョン間の切り替えおよびプレパレーションの現在の状態への切り替えを確認します。

ここで使用するデータセットには、名前、職業、電話番号、メールアドレスなどの顧客データが格納されていますが、一部クレンジングが必要です。先頭や末尾の空白、大文字小文字のばらつきなど、顧客名を含んだカラムにはフォーマットの不一致があります。また、各種電話番号やメールアドレスが無効です。

プレパレーションを進めながら、2つの異なる時期のプレパレーションの状態を反映した2つのバージョンを作成します。

手順

  1. FIRST_NAMEカラムのヘッダーをクリックして、[Ctrl]キーを押したままLAST_NAMEカラムのヘッダーをクリックします。

    2つのカラムの内容が選択されます。

  2. [Remove trailing and leading characters] (終了文字と先頭文字を削除)ファンクションと[Change to title case] (単語の先頭文字が大文字になるようにスタイルを変換)ファンクションを適用して、空白を除去し、大文字小文字を調整します。

    プレパレーションの最初の大きなステップは、これらのフォーマットエラーのマークを消去することです。次に、これらの変更を追跡するためのバージョンを作成します。

  3. ヘッダーバーにある[Manage versions] (バージョンの管理)ボタンをクリックします。

    ファンクションパネル[Versions] (バージョン)パネルに切り替わります。このプレパレーションにはまだバージョンがないため、パネルは空です。

    [Manage versions] (バージョンの管理)ボタンによる新しいバージョンの追加は、管理者権限のあるTalend Data Preparationユーザーしか実行できません。他のユーザーは既存のバージョンを読み取り専用モードで確認することしかできません。

  4. [Add version] (バージョンの追加)ボタンをクリックします。
  5. 対応するフィールド、この例では[Fixing formatting errors in names] (名前のフォーマットエラーの修正)にバージョンの簡単な説明を入力して、[Add version] (バージョンの追加)をクリックします。

    バージョンがタイムスタンプ、ユーザーが追加した説明とともに[Versions] (バージョン)パネルに表示されます。

  6. バージョンをクリックして読み取り専用モードでアクセスします。

    フィルターを適用してデータを参照できますが、ファンクションを適用することはできません。

  7. 読み取り専用モードを終了して、データの準備を再開するには、ヘッダーバーにある[Switch to current state] (現在の状態に切り替え)をクリックします。

    これで編集モードに戻ります。

  8. 残りの無効なエントリーを[PHONE] (電話)カラムと[EMAIL] (電子メール)カラムからクレンジングするには、グリッド左上のメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。
  9. ファンクションパネルから[Delete these filtered rows] (フィルター処理された行を削除)ファンクションを選択します。

    無効な値がすべてデータセットから削除されたので、この状態をキャプチャするための別のバージョンを作成します。

  10. ステップ35を繰り返して新しいバージョンを作成しますが、今回は説明としてRemoving all invalid valuesと入力します。

    2つのバージョンが[Versions] (バージョン)パネルに表示され、読み取り専用モードでアクセスできます。

タスクの結果

クレンジングプロセスの2つのステップでのプレパレーションの状態をキャプチャするために、プレパレーションの2つのバージョンを作成しました。これらのバージョンのいずれかをエクスポートしてTalendジョブで使用することも、プレパレーションの現在の状態を編集し続けることもできます。