非構造化データを標準化するプロセスを設定する - 7.3

Standardization

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

このタスクについて

これを行うには、次の手順に従います。

手順

  1. [Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputコンポーネントをtStandardizeRowコンポーネント に接続します。
  2. tStandardizeRowコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを表示します。
    詳細なルールタイプは、ルールの順序に関係なく、常にANTLR固有のルールの後に実行されます。
  3. [Column to parse] (解析するカラム)リストで、[input] (入力)を選択します。
  4. [Standardize this field] (このフィールドの標準化)チェックボックスをオンにします。
  5. [Conversion rules] (変換ルール)テーブルで[+]ボタンを6回クリックして、カラムを6つ追加します。それらに名前を付け、キャプチャーに示すように設定します。"StreetName"ルールの場合:
    1. [Type] (タイプ)フィールドで[Index] (インデックス)タイプを選択します。
    2. [Value] (値)フィールドにインデックスへのパスを入力します。パスの前にプロトコルfile://を入力します。または、クラスター上のインデックスの場合はhdfs://を入力します。
    3. [Search mode] (検索モード)リストから、検索モードとして[Match exact] (完全一致)を選択します。
      [Match exact] (完全一致)モードを使うことにより、ストリート名インデックスに完全に一致する文字列のみが入力フローから抽出されます。利用可能な検索モードの詳細は、インデックスルールの検索モードを参照してください。
    その他のルールは次のとおりです。

    [Name] (名前)

    [Type] (タイプ)

    [Value] (値)

    "Zip"

    [Format] (形式)

    " DIGIT DIGIT DIGIT DIGIT DIGIT "

    "City" [Enumeration] (列挙)

    " 'Paris' | 'Paris' | 'PARIS' | 'Bagnolet' "

    "SpecialStreetNumber" [Format] (形式)

    " (INT ('bis'|'ter')) | ( INT '-' INT) "

    "INT" [Shape] (シェイプ)

    "<SpecialStreetNumber>"

    "Address" [Shape] (シェイプ)

    " <INT> <StreetName> <Zip> <City> "

    詳細ルールタイプは常にANTLR固有のルールの後に実行されるため、基本ルール"Zip""City"、および"SpecialStreetNumber"が最初に実行され、その後に詳細ルール"INT"および"Address"が実行されます。

  6. [Routines] (ルーチン)内にコードを生成するために、[Generate parser code in Routines] (ルーチン内にパーサーコードを生成する)ボタンをクリックします。
    このボタンをクリックしないと、ジョブは実行されません。
  7. [Advanced settings] (詳細設定)ビューで、[Output format] (出力形式)エリアでデフォルトで選択されているオプションをそのまま使います。
    [Max edits for fuzzy match] (ファジーマッチの最大編集)は、デフォルトで1に設定されています。
  8. デザインワークスペースでtStandardizeRowコンポーネントを右クリックし、[Row] (行) > [Reject] (リジェクト)リンクを使って、下にあるtLogRowに接続します。
  9. tStandardizeRowコンポーネントにリンクされているtLogRowコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを表示します。
  10. [Mode] (モード)エリアで、[Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))オプションを選択します。

タスクの結果

次に、目的とするデータをフィルタリングおよび抽出するプロセスの設定を続けます。