セマンティックタイプに基づいてフィールドの部分を抽出 - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2024-04-16
[Extract values by semantic type] (セマンティックタイプで値を抽出)ファンクションを使用して、事前定義またはカスタムのセマンティックタイプに従い、セルに含まれているさまざまな情報を新しいカラムに抽出できます。

このタスクについて

このファンクションでは、特定のフィールドから抽出する情報のタイプに対応する異なるセマンティックタイプを最大5つまで選択できます。また、正規表現またはディクショナリーに基づくセマンティックタイプ、および複合セマンティックタイプが使用できます。

ここで、あなたは文化省の仕事をしており、博物館の来訪者を対象とするアンケートに基づいてデータを準備する必要しなければならないとしましょう。このアンケートでは、たとえば年齢や性別など、来訪者の基本的な人口統計情報を収集できましたが、コメントを入力する特定のフィールドもありました。来訪者はこのコメントフィールドに自分の経験をシェアしたり、他の連絡先情報を残したり、訪問した他国の他の博物館を推奨する書き込みをしたりすることも可能でした。このような情報は将来のパートナーシップの構築などにも使用できるものです。

ただし、簡単な解析操作によって、コメントフィールドに収集された情報はすべて結果データセット内の1つのフィールドに帰結しています。その一方であなたは、さまざまなタイプの情報を抽出して特定のカラムにソートしたいと考えています。そのために、[Extract values by semantic type] (セマンティックタイプで値を抽出)ファンクションや、Talend Cloud Data Preparationで使用可能な事前定義済みまたはカスタムセマンティックタイプを利用して、コメントに残されたさまざまなカテゴリーの情報を識別し、個別のカラムに抽出します。

データセットにコメントが含まれている状態。

手順

  1. [Comments] (コメント)カラムのヘッダーをクリックしてその内容を選択します。
  2. ファンクションパネルにExtract values by semantic typeと入力し、表示される結果をクリックして、関連するファンクションのオプションを開きます。
    [セマンティックタイプで値を抽出]パネルが開かれている状態。
  3. 最初の[Semantic type] (セマンティックタイプ)ドロップダウンリストでMuseumを選択します。
    ドロップダウンリストで使用できるセマンティックタイプはどれも、事前定義されたセマンティックタイプかTalend Dictionary Serviceで作成したカスタムタイプのどちらかに対応します。各カテゴリーが新しいカラムに抽出されます。
  4. 2番目と3番目の[Semantic type] (セマンティックタイプ)ドロップダウンリストで、CountryEmailをそれぞれ選択します。
    これら3つのカテゴリーは、博物館の訪問者がコメントフィールドに残してくれるように願っている種類の情報に対応します。
  5. [Normalize value] (値の正規化)チェックボックスをオンにすると、デフォルトまたはカスタムのディクショナリーベースタイプや複合セマンティックタイプに基づいて抽出された値に標準化プロセスが適用されます。
  6. [Submit] (送信)をクリックします。

タスクの結果

選択したセマンティックタイプに一致する関連情報、および1つのフィールドに含まれていた情報のすべてが抽出され、新しいカラムに個別に表示されます。元のフィールドに該当する情報がなかった場合、新しいカラム内に作成されるセルは空のままとなります。
データセットにコメントが含まれ、別の新しいカラムに表示されている状態。
ヒント: この変換はスマート入力ファンクションを使って行うこともできます。