プレパレーションのバージョンを作成 - 7.3

Talend Data Preparationユーザーガイド

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2023-11-29

以下の例では、データに対していくつかのプレパレーションステップを実行し、2つの異なる時期のバージョンを作成し、バージョン間の切り替えおよびプレパレーションの現在の状態への切り替えを確認します。

ここで使用するデータセットには、名前、職業、電話番号、メールアドレスなどの顧客データが格納されていますが、一部クレンジングが必要です。先頭や末尾の空白、大文字小文字のばらつきなど、顧客名を含んだカラムにはフォーマットの不一致があります。また、各種電話番号やメールアドレスが無効です。

プレパレーションを進めながら、2つの異なる時期のプレパレーションの状態を反映した2つのバージョンを作成します。

手順

  1. FIRST_NAMEカラムのヘッダーをクリックし、Ctrlキーを押したままLAST_NAMEカラムのヘッダーをクリックします。

    2つのカラムの内容が選択されます。

  2. [Remove trailing and leading characters] (終了文字と先頭文字を削除)ファンクションと[Change to title case] (単語の先頭文字が大文字になるようにスタイルを変換)ファンクションを適用して、空白を除去し、大文字小文字を調整します。

    プレパレーションの最初の大きなステップは、これらのフォーマットエラーのマークを消去することです。次に、これらの変更を追跡するためのバージョンを作成します。

  3. ヘッダーバーにある[Manage versions] (バージョンの管理)ボタンをクリックします。

    ファンクションパネル[Versions] (バージョン)パネルに切り替わります。このプレパレーションにはまだバージョンがないため、パネルは空です。

    [Manage versions] (バージョンの管理)ボタンによる新しいバージョンの追加は、管理者権限のあるTalend Data Preparationユーザーしか実行できません。他のユーザーは既存のバージョンを読み取り専用モードで確認することしかできません。

  4. [Add version] (バージョンの追加)ボタンをクリックします。
  5. 対応するフィールド、この例では[Fixing formatting errors in names] (名前のフォーマットエラーの修正)にバージョンの簡単な説明を入力して、[Add version] (バージョンの追加)をクリックします。

    バージョンがタイムスタンプ、ユーザーが追加した説明と共に[Versions] (バージョン)パネルに表示されます。

  6. バージョンをクリックして読み取り専用モードでアクセスします。

    フィルターを適用してデータを参照できますが、ファンクションを適用することはできません。

  7. 読み取り専用モードを終了して、データの準備を再開するには、ヘッダーバーにある[Switch to current state] (現在の状態に切り替え)をクリックします。

    これで編集モードに戻ります。

  8. 残りの無効なエントリーを[PHONE] (電話)カラムと[EMAIL] (メール)カラムからクレンジングするには、グリッド左上のメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。
  9. ファンクションパネルから[Delete these filtered rows] (フィルター処理された行を削除)ファンクションを選択します。

    無効な値がすべてデータセットから削除されたので、この状態をキャプチャーするための別のバージョンを作成します。

  10. ステップ35を繰り返して新しいバージョンを作成しますが、今回は説明としてRemoving all invalid valuesと入力します。

    2つのバージョンが[Versions] (バージョン)パネルに表示され、読み取り専用モードでアクセスできます。

タスクの結果

クレンジングプロセスの2つのステップでのプレパレーションの状態をキャプチャーするために、プレパレーションの2つのバージョンを作成しました。これらのバージョンのいずれかをエクスポートしてTalendジョブで使用することも、プレパレーションの現在の状態を編集し続けることもできます。