セマンティック認識でスマート入力を使って州コードを州に変換 - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2024-04-16

スマート入力ファンクションでは入力する例に基づき、特定のセマンティックタイプに対応するデータ(国、メール、URL、米国の郵便番号と州)を認識し、フォーマットすることもできます。

ここでは、顧客情報(名前、メールアドレス、居住州など)が含まれているデータセットの例を見てみましょう。このシナリオでは、スマート入力ファンクションを使って2文字の州コードを州のフルネームに変換し、読みやすいフォーマットにする方法について説明します。

データセットに顧客情報が含まれている状態。

手順

  1. stateカラムヘッダーをクリックして、内容を選択します。
  2. ファンクションパネルにMagic fillと入力し、結果をクリックして関連するファンクションのオプションを表示します。
  3. [Input 1] (入力1)フィールドに、変換するstateカラムの値の1つ(NYなど)を入力します。
  4. [Output 1] (出力1)フィールドに、対応する州のフルネーム(New Yorkなど)を入力します。
    ファンクションを動作させるには、適用する変換の少なくとも2つの完全な例を入力する必要があります。その後は3つまで例を追加できます。例はデータセットから取ることができますが、データセット外から他の有効な米国の州コード値を使用することも可能です。入力する例が多いほど、ファンクションによって識別される変換の精度が上がります。
  5. 残りのフィールドで、例の前後にデータを追加入力します:
    • [Input 2] (入力2)AZ[Output 2] (出力2)Arizona
    • [Input 3] (入力3)TX[Output 3] (出力3)Texas
    • [Input 4] (入力4)IN[Output 4] (出力4)Indiana
    • [Input 5] (入力5)MI[Output 5] (出力5)Michigan

    ファンクションはこれらの例に基づき、入力がすべて2文字の州コードであること、そして出力が州のフルネームであることを理解し、対応する変換を残りのカラムに適用します。

  6. [Submit] (送信)をクリックします。

タスクの結果

例によって定義されたフォーマット操作が残りの州コードに適用される、新しいカラムが作成されます。カラムヘッダーを見ると、新しい値がすべてUS Stateセマンティックタイプに対応しており、見やすいフォーマットになっていることが確認できます。これでstateカラムを削除できます。
データセットに新しいカラムと共に顧客情報が含まれている状態。