セマンティックタイプに基づいてフィールドの部分を抽出 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation
[Extract values by semantic type] (セマンティックタイプで値を抽出)機能を使用して、事前定義またはカスタムのセマンティックタイプに従い、セルに含まれているさまざまな情報を新しいカラムに抽出できます。

このタスクについて

この機能では、特定のフィールドから抽出する情報のタイプに対応する異なるセマンティックタイプを最大5つまで選択できます。また、正規表現または辞書に基づくセマンティックタイプ、および複合セマンティックタイプが使用できます。

ここで、あなたは文化省の仕事をしており、博物館の来訪者を対象とするアンケートに基づいてデータを準備する必要しなければならないとしましょう。このアンケートでは、たとえば年齢や性別など、来訪者の基本的な人口統計情報を収集できましたが、コメントを入力する特定のフィールドもありました。来訪者はこのコメントフィールドに自分の経験をシェアしたり、他の連絡先情報を残したり、訪問した他国の他の博物館を推奨する書き込みをしたりすることも可能でした。このような情報は将来のパートナーシップの構築などにも使用できるものです。

ただし、簡単な解析操作によって、コメントフィールドに収集された情報はすべて結果データセット内の1つのフィールドに帰結しています。その一方であなたは、さまざまなタイプの情報を抽出して特定のカラムにソートしたいと考えています。そのために、[Extract values by semantic type] (セマンティックタイプで値を抽出)機能や、Talend Cloud Data Preparationで使用可能な事前定義済みまたはカスタムセマンティックタイプを利用して、コメントに残されたさまざまなカテゴリーの情報を識別し、個別のカラムに抽出します。

手順

  1. [Comments] (コメント)カラムのヘッダーをクリックしてその内容を選択します。
  2. 機能パネルにExtract values by semantic typeと入力し、表示される結果をクリックして、関連する機能のオプションを開きます。
  3. 最初の[Semantic type] (セマンティックタイプ)ドロップダウンリストでMuseumを選択します。
    ドロップダウンリストで使用できるセマンティックタイプはどれも、事前定義されたセマンティックタイプかTalend Dictionaryサービスで作成したカスタムタイプのどちらかに対応します。各カテゴリーが新しいカラムに抽出されます。
  4. 2番目と3番目の[Semantic type] (セマンティックタイプ)ドロップダウンリストで、CountryEmailをそれぞれ選択します。
    これら3つのカテゴリーは、博物館の訪問者がコメントフィールドに残してほしいと願っている種類の情報に対応します。
  5. [Normalize value] (値の正規化)チェックボックスをオンにすると、デフォルトまたはカスタムの辞書ベースタイプや複合セマンティックタイプに基づいて抽出された値に標準化プロセスが適用されます。
  6. [Submit] (送信)をクリックします。

タスクの結果

選択したセマンティックタイプに一致する関連情報、および1つのフィールドに含まれていた情報のすべてが抽出され、新しいカラムに別々表示されます。元のフィールドに該当する情報がなかった場合、新しいカラム内に作成されるセルは空のままとなります。
ヒント: この変換はスマート入力関数を使って行うこともできます。