空のレコードと無効なレコードの削除 - 2.5

Talend Data Preparation の簡単な例

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

クオリティバーは、カラムに空のレコードまたは無効なレコードが含まれているかどうかを示します。

カラムタイプに一致するデータはクオリティバーで緑で表示されます。オレンジ色の場合、カラムタイプに一致しない無効なデータを示します。空のレコードは白で表示されます。

特定の年齢範囲と州の顧客に注目する必要があるので、該当するカラムの空のデータは要りません。操作は簡単で、age (年齢)state (州)のカラムの空のデータと無効な値をデータセットから削除するだけです。

手順

  1. グリッドの左上にあるメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。

    この操作によってデータへのフィルターが作成され、データセットからの空のエントリーまたは無効なエントリーだけが表示されます。データに適用されているフィルターはすべて、グリッド上部でいつでも表示できます。

    また、ファンクションパネル下部に新しいオプションが表示されています。フィルターまたは条件を適用すると、全データまたはフィルター処理済みのデータだけにファンクションを適用するかどうかを選択できます。Talend Data Preparationではこのように条件を使用します。

    このフィルターが全データで有効になったので、age (年齢)state (州)のカラムから特に空のレコードを削除します。

  2. age (年齢)カラムのヘッダーにあるクオリティバーの白い部分をクリックします。
  3. メニューが開いたら、[Delete the rows with empty cells] (空のセルを含む行を削除)を選択します。

    空の値が削除されたので、age (年齢)カラムのクオリティバーで確認できるように、このカラムには有効なデータだけが保管されています。

  4. 同じ手順をstate (州)カラムでも繰り返します。

    現在有効な条件からわかるように、データセットの他のカラムには空の値が含まれていますが、重要なのは年齢と州なので、空の値はそのままにします。マーケティング目的に使用できるphone number (電話番号)カラムから無効なデータを削除します。

  5. phone number (電話番号)のクオリティバーのオレンジの部分をクリックして、[Delete the rows with invalid cell] (無効なセルを含む行を削除)を選択します。

    無効と見なされたデータはすべて削除されます。

  6. フィルターバーのゴミ箱アイコンをクリックしてフィルターを消去し、再びデータセット全体を表示します。

タスクの結果

age (年齢)state (州)phone numbers (電話番号)のカラムの空の値または無効な値を持つ行が削除されます。データセットから余分なデータがある程度取り除かれたので、重要なデータに集中して取り組めます。