類似の内容の検索およびグルーピング - 8.0

Talend Data Preparation入門ガイド

Version
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2023-09-14

類似テキストを見つけて分類すると、わずかしか違わない内容を調整できます。

注: [Find and group similar text] (類似テキストを検索してグルーピング)機能はアジア系文字をサポートしていません。

customers.xlsxファイルには、顧客の職業に関する情報があります。College/Grad Student (大学生/大学院生)とCollege Student (大学生)など、値の一部は非常に似ています。これらの値の一部を再編成すると、読みやすさが向上してデータの質も向上します。

類似した内容を見つけてグルーピングするには、次の手順を実行します。

手順

  1. Occupation (職業)カラムのヘッダーをクリックしてその内容を選択します。

    統計ボックスを確認すると、わずかしか違わない職業名があることがわかります。

  2. 関数リストの[Find and Group Similar Text....] (類似テキストを検索してグルーピング…)を選択します。

    [Find and group similar text] (類似テキストを検索してグルーピング)メニューが開きます。

    似通った職業が2番目のカラムに分類されます。この場合、College/Grad Student (大学生/大学院生)とCollege Student (大学生)がグルーピングされています。3番目のカラムは、2番目のカラムの値を置き換えることが可能な職業名の候補です。ドロップダウンリストから別の値を選択することも、まったく新しい値を入力することもできます。変更しない値または値グループの前のチェックボックスはオフにします。

  3. 3番目のカラムのドロップダウンリストで[College Student] (大学生)を選択します。
  4. [Submit] (送信)をクリックします。

タスクの結果

[College/Grad Student] (大学生/大学院生)[College Student] (大学生)が、新たに調整された値である[College Student] (大学生)の下に分類されます。