オートコンプリートによるセルの値の標準化 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

セマンティックタイプが辞書または複合タイプに基づいているカラム内のセルを編集する時に、アプリケーションはこの辞書に含まれている値を入力の途中で自動的に提案します。これは、カラム全体が同じ基準に従うようにするためです。

この例では、米国の州コードをはじめとする顧客データが含まれているデータセットで作業しています。[Texas] (テキサス)の出現に2文字のコードフォーマットで正しく入力されていないものがあるため、[State] (州)カラムでデータの一部が無効と見なされ、クオリティバーに示されます。エラーが含まれている行を隔離し、オートコンプリートでセルの1つを編集し、同一のセルすべてに変更を適用することで、カラム全体を1つのオペレーションで修正します。

始める前に

オートコンプリートメニューは、セマンティックタイプがTalend Data Preparationにデフォルトで存在する値の辞書や複合タイプに基づいている場合、またはTalend Dictionaryサービスで作成された場合のみ使用できます。カスタムセマンティックタイプを作成したり、既存のものを編集したりする方法の詳細は、セマンティックタイプライブラリーのエンリッチ化を参照してください。

手順

  1. [State] (州)カラムで、クオリティバーのオレンジの部分をクリックし、[Select rows with invalid values for State] (州の値が無効な行を選択)をクリックしてフィルターを適用し、[Texas] (テキサス)を含む行を隔離します。
  2. [State] (州)カラムで、Texasの1つをダブルクリックします。
    これでセルのコンテンツを編集できるようになります。以前の値を削除すると、ドロップダウンリストが開き、US State Code辞書ベースのセマンティックタイプの一部である値がアルファベット順にすべて提案されます。
  3. Texasのコードは表示される最初の結果の一部ではないため、Tと入力して結果を見てみます。
    入力を進めるにつれて、より正確な候補だけが表示されるようになります。ただし、予期される値を元のリストで既に見つけられる場合は、この値を直接選択できます。
  4. 絞り込まれたこのリストから、Texasに対応する州コードであるTXを選択します。
  5. 値の入力または選択を終えたら、表示されるチェックボックス[Apply to all cells with this value] (この値を持つすべてのセルに適用する)をオンにします。
    このセルで行った変更が、正しくない他の値にも適用されます。
  6. [Submit] (送信)をクリックします。

タスクの結果

候補を予測表示するこの機能により、適用する新しい値は正しい形式になります。正しくないその他すべての[Texas] (テキサス)の出現が、1回のオペレーションで正しい州コードTXに置換されます。クオリティバーに、[State] (州)カラムのデータがすべて有効であると示されています。