電話番号情報の抽出 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

[Extract phone number information] (電話番号情報の抽出)ファンクションを使用して、電話番号に関する新しいタイプの情報を複数の新しいカラムに抽出することができます。

このファンクションでは、電話タイプ、国、地域、地理的地域、通信事業者名、タイムゾーンに関する情報を抽出することができます。ただし、ファンクションの動作は電話番号データを含んでいるカラムのセマンティックタイプによります。

  • セマンティックタイプが、US PhoneUK PhoneDE Phone、またはFR Phoneのいずれかに対応する場合は、出力が必要なフィールドを選択し、ファンクションを適用するだけの処理になります。
  • カラムに異なる国からの番号が含まれており、フォーマットがそれぞれ異なり、一致するセマンティックタイプがよりジェネリックなPhone numberである場合は、[Extract phone number information] (電話番号情報の抽出)ファンクションを使用する前にフォーマット作業が必要になります。この手順が必要なのは、標準化されていない番号は複数の国に対応するストラクチャーになっている場合が多く、国をユニークに識別することが不可能であるためです。

世界中の顧客の名前、国、電話番号など、基本的な顧客情報が含まれているデータセットを例として取り上げることにします。このプレパレーションの目的は、連絡先情報として携帯電話番号を入力した顧客のみを残すように電話番号を処理することです。[Extract phone number information] (電話番号情報の抽出)には電話タイプに関するこの情報を表示することができませんでしたが、番号がさまざまなフォーマットになっているため、このままではまだファンクションを適用することができません。最初に、[country] (国)カラムの情報を使用して[phone] (電話)カラムにフォーマットオペレーションを行い、番号に国際電話のプレフィックスを追加します。Talend Data Preparationはこの段階で、形式が揃い、それぞれの国情報が含まれた電話番号の情報を抽出することができます。

手順

  1. [phone] (電話)カラムのヘッダーをクリックしてその内容を選択します。
  2. [Functions] (ファンクション)パネルで[Format phone numbers] (電話番号をフォーマット)ファンクションを選択し、[country] (国)カラムからの情報を使用して適用し、出力を[International] (国際)形式に設定します。

    これで、電話番号は単一の形式になり、プレフィックスとして国際コードが付いています。電話番号から国をユニークに識別し、追加情報を抽出できるようになりました。

    別のカラムで[Format phone numbers] (電話番号をフォーマット)ファンクションを使用する方法については、電話番号をフォーマット化を参照して下さい。

  3. ファンクションパネルでExtract phone number informationと入力し、結果をクリックして関連するファンクションのオプションを開きます。
  4. 抽出する情報のさまざまなカテゴリーに対応するチェックボックスをオンにします。

    各カテゴリが新しいカラムにエクスポートされます。この例では、[Phone number region] (電話番号の地域コード)チェックボックスはオフにしておきます。データセットには国コードの形式で地域に関する情報がすでに含まれているからです。

  5. [Language] (言語)ドロップダウンリストで、出力する情報に使用する言語を選択します。この例では[English] (英語)です。
  6. [Submit] (送信)をクリックします。

タスクの結果

フォーマットを指定する簡単な手順を終えると、電話番号から抽出されたさまざまな情報を含むカラムが作成済みとなっています。情報はGoogle電話ライブラリから抽出されたものです。これで、それぞれの番号が固定回線または携帯電話のどちらであるかを容易に特定でき、プレパレーションを続行することができます。

空または無効だった行は、ファンクションの適用後に空のセルを生成します。