類似の内容の検索およびグループ化 - 7.0

Talend Data Preparation入門ガイド

EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Data Preparation
task
データクオリティとプレパレーション > データクレンジング

類似テキストを見つけて分類すると、わずかしか違わない内容を調整することができます。

customers.xlsxファイルには、顧客の職業に関する情報があります。College/Grad Student (大学生/大学院生)とCollege Student (大学生)など、値の一部は非常に似通っています。. これらの値の一部を再編成すると、読みやすさが向上してデータの質も向上します。

類似した内容を見つけてグループ化するには、次の手順を実行します。

手順

  1. Occupation (職業)カラムのヘッダーをクリックしてその内容を選択します。

    統計ボックスを確認すると、わずかしか違わない職業名があることがわかります。

  2. ファンクションリストの[Find and Group Similar Text....] (類似テキストの検索およびグループ化…)を選択します。

    [Find and group similar text] (類似テキストの検索およびグループ化)メニューが開きます。

    似通った職業が2つ目のカラムに分類されます。この場合、College/Grad Student (大学生/大学院生)とCollege Student (大学生)がグループ化されています。3つ目のカラムは、2つ目のカラムの値を置き換えることが可能な職業名の候補です。ドロップダウンリストから別の値を選択することも、まったく新しい値を入力することもできます。変更しない値または値グループの前のチェックボックスはオフにします。

  3. 3つ目のカラムのドロップダウンリストで[College Student] (大学生)を選択します。
  4. [Submit] (送信)をクリックします。

タスクの結果

[College/Grad Student] (大学生/大学院生)[College Student] (大学生)が、新たに調整された値である[College Student] (大学生)の下に分類されます。