類似の内容の検索およびグループ化 - Cloud

Talend Cloud Data Preparation入門ガイド

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Data Preparation
task
データクオリティとプレパレーション > データクレンジング

類似テキストを見つけて分類すると、わずかしか違わない内容を調整できます。

注: [Find and group similar text] (類似テキストを検索してグループ化)機能はアジア系文字をサポートしていません。

customers.xlsxファイルには、顧客の職業に関する情報があります。College/Grad Student (大学生/大学院生)とCollege Student (大学生)など、値の一部は非常に似ています。これらの値の一部を再編成すると、読みやすさが向上してデータの質も向上します。

類似した内容を見つけてグループ化するには、次の手順を実行します。

手順

  1. Occupation (職業)カラムのヘッダーをクリックしてその内容を選択します。

    統計ボックスを確認すると、わずかしか違わない職業名があることがわかります。

  2. 関数リストの[Find and Group Similar Text....] (類似テキストを検索してグループ化…)を選択します。

    [Find and group similar text] (類似テキストを検索してグループ化)メニューが開きます。

    似通った職業が2番目のカラムに分類されます。この場合、College/Grad Student (大学生/大学院生)とCollege Student (大学生)がグループ化されています。3番目のカラムは、2番目のカラムの値を置き換えることが可能な職業名の候補です。ドロップダウンリストから別の値を選択することも、まったく新しい値を入力することもできます。変更しない値または値グループの前のチェックボックスはオフにします。

  3. 3番目のカラムのドロップダウンリストで[College Student] (大学生)を選択します。
  4. [Submit] (送信)をクリックします。

タスクの結果

[College/Grad Student] (大学生/大学院生)[College Student] (大学生)が、新たに調整された値である[College Student] (大学生)の下に分類されます。