以下の例では、データに対していくつかのプレパレーションステップを実行し、2つの異なる時期のバージョンを作成し、バージョン間の切り替えおよびプレパレーションの現在の状態への切り替えを確認します。
ここで使用するデータセットには、名前、職業、電話番号、メールアドレスなどの顧客データが格納されていますが、一部クレンジングが必要です。先頭や末尾の空白、大文字小文字のばらつきなど、顧客名を含んだカラムにはフォーマットの不一致があります。また、各種電話番号やメールアドレスが無効です。
プレパレーションを進めながら、2つの異なる時期のプレパレーションの状態を反映した2つのバージョンを作成します。
手順
-
[First_name]カラムのヘッダーをクリックし、Ctrlキーを押したままLast_nameカラムのヘッダーをクリックします。
-
[Remove trailing and leading characters] (終了文字と先頭文字を削除)ファンクションと[Change to title case] (単語の先頭文字が大文字になるようにスタイルを変換)ファンクションを適用して、空白を除去し、大文字小文字を調整します。
プレパレーションの最初の大きなステップは、これらのフォーマットエラーのマークを消去することです。次に、これらの変更を追跡するためのバージョンを作成します。
-
ヘッダーバーにある[Manage versions] (バージョンの管理)ボタンをクリックします。
ファンクションパネルが[Versions] (バージョン)パネルに切り替わります。このプレパレーションにはまだバージョンがないため、パネルは空です。
[Manage versions] (バージョンの管理)ボタンによる新しいバージョンの追加は、管理者権限のあるTalend Data Preparationユーザーしか実行できません。他のユーザーは既存のバージョンを読み取り専用モードで確認することしかできません。
-
[Add version] (バージョンの追加)ボタンをクリックします。
-
対応するフィールド、この例では[Fixing formatting errors in names] (名前のフォーマットエラーの修正)にバージョンの簡単な説明を入力して、[Add version] (バージョンの追加)をクリックします。
バージョンがタイムスタンプ、ユーザーが追加した説明と共に[Versions] (バージョン)パネルに表示されます。
-
バージョンをクリックして読み取り専用モードでアクセスします。
フィルターを適用してデータを参照できますが、ファンクションを適用することはできません。
-
読み取り専用モードを終了して、データの準備を再開するには、ヘッダーバーにある[Switch to current state] (現在の状態に切り替え)をクリックします。
-
PhoneカラムとEmailカラムから残りの無効なエントリーをクレンジングするには、グリッド左上のメニューアイコンをクリックし、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。
-
ファンクションパネルから[Delete these filtered rows] (フィルター処理された行を削除)ファンクションを選択します。
無効な値がすべてデータセットから削除されたので、この状態をキャプチャーするための別のバージョンを作成します。
-
ステップ3~5を繰り返して新しいバージョンを作成しますが、今回は説明としてRemoving all invalid valuesと入力します。
2つのバージョンが[Versions] (バージョン)パネルに表示され、読み取り専用モードでアクセスできます。
タスクの結果
クレンジングプロセスの2つのステップでのプレパレーションの状態をキャプチャーするために、プレパレーションの2つのバージョンを作成しました。これらのバージョンのいずれかをエクスポートしてTalendジョブで使用することも、プレパレーションの現在の状態を編集し続けることもできます。