データのクレンジング - 2.5

Talend Data Preparation の簡単な例

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

プレパレーションが保存されたので、他のデータセットの場合と同様に顧客データの作業を開始して、通常のすべてのファンクションの中から選択を行うことができます。

最初にインポートしたデータセットには2万行が含まれていますが、最初の1万行のサンプルだけがデフォルトにより表示されます。しかし心配はいりません。追加するすべてのプレパレーションステップをデータセット全体に適用できます。

データセット内のすべてのデータが有効でエラーのない状態にするために、いくつかの基本的なクレンジング操作を実行します。

たとえば、First_NameカラムとLast_Nameカラムの一部のエントリーに不要な空白があります。

各カラムの下のクオリティバーも、データに空のセルまたは無効なセルが含まれていることを示しています。Email (メール)カラムなどには両方があります。

1回の操作でプレパレーションからすべての空の行と無効な行を削除し、顧客名が含まれているカラムのフォーマットエラーを削除します。

手順

  1. First_Nameカラムのヘッダーをクリックします。
  2. [Ctrl]キーを押したまま、Last_Nameカラムのヘッダーをクリックします。

    2つのカラムが選択されたので、両方のカラムに1回の操作でファンクションを適用できます。

  3. ファンクションパネル[Remove trailing and leading characters] (終了文字と先頭文字を削除)ファンクションを見つけてクリックし、オプションパネルを開きます。
  4. [Padding character] (パディング文字)ドロップダウンリストで[whitespace] (空白)を選択し、[Submit] (送信)をクリックします。

    選択したカラムから空白が削除されます。

    このファンクションの結果を新しいカラムに出力するには、[Create new column] (新しいカラムを作成する)チェックボックスを選択します。

  5. グリッドの左上にあるメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。

    フィルターがデータに適用され、空のセルまたは無効なセルの行だけが表示されるので、これらの行をまとめて削除するのが容易になります。

  6. ファンクションパネル[Delete these filtered rows] (フィルター処理された行を削除)をクリックして、該当するファンクションを適用します。

    フィルター処理された行がすべて削除されたら、フィルターバーのゴミ箱アイコンをクリックしてフィルターを消去します。

タスクの結果

2つの簡単な操作で、データセット内のエラーをすべて削除し、データの質が改善されました。

各カラムのクオリティバーはすべてグリーンになり、プレパレーションに無効なデータが残っていないことを示しています。