オートコンプリートでセルの値を標準化 - 7.3

Talend Data Preparationユーザーガイド

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2023-11-29

セマンティックタイプがディクショナリーに基づいているカラム内のセルを編集する時に、アプリケーションはこのディクショナリーに含まれている値を入力の途中で自動的に提案します。これは、カラム全体が同じ基準に従うようにするためです。

このサンプルでは、米国の州コードなどの顧客データが含まれたデータセットを処理します。Texasの出現に2文字のコードフォーマットで正しく入力されていないものがあるため、Stateカラムでデータの一部が無効と見なされ、クオリティバーに示されます。エラーが含まれている行を隔離し、オートコンプリートでセルの1つを編集し、同一のセルすべてに変更を適用することで、カラム全体を1つのオペレーションで修正します。

始める前に

このオートコンプリートメニューは、カラムのセマンティックタイプがデフォルトでTalend Data Preparationに存在するディクショナリーの値に基づいている場合、またはTalend Dictionary Serviceを使用して作成された場合にのみ使用できます。カスタムセマンティックタイプを作成したり、既存のものを編集したりする方法の詳細は、セマンティックタイプライブラリーをエンリッチ化をご覧ください。

手順

  1. Stateカラムで、クオリティバーのオレンジの部分をクリックし、[Select rows with invalid values for State] (州の値が無効な行を選択)をクリックしてフィルターを適用し、Texasを含む行を隔離します。
  2. Stateカラムで、Texasの1つをダブルクリックします。
    これでセルのコンテンツを編集できるようになります。以前の値を削除すると、ドロップダウンリストが開き、US State Codeディクショナリーベースのセマンティックタイプの一部である値がアルファベット順にすべて提案されます。
  3. Texasのコードは表示される最初の結果の一部ではないため、Tと入力して結果を見てみます。
    入力を進めるにつれて、より正確な候補だけが表示されるようになります。ただし、予期される値が元のリストで既に見つかる場合は、この値を直接選択できます。
  4. 絞り込まれたこのリストから、Texasに対応する州コードであるTXを選択します。
  5. 値の入力または選択を終えたら、表示されるチェックボックス[Apply to all cells with this value] (この値を持つすべてのセルに適用する)をオンにします。
    このセルで行った変更が、正しくない他の値にも適用されます。
  6. [Submit] (送信)をクリックします。

タスクの結果

候補を予測表示するこのファンクションにより、適用する新しい値は正しい形式になります。正しくないその他すべての[Texas] (テキサス)の出現が、1回の操作で正しい州コードTXに置換されます。クオリティバーに、Stateカラムのデータがすべて有効であると示されています。