メイン コンテンツをスキップする

ベーシックタイプのルールを使ってデータを正規化する

このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

このシナリオでは、次の目的で2つのステップを実行します。

  1. 着信データを正規化する(非準拠データから準拠データを分離する)。

  2. 目的のデータを抽出して表示する。

これらの2つのステップを複製する前に、どのルールの構成が必要かを知るために、ソースデータを分析する必要があります。このシナリオでは、ソースデータは、partsmasterという.csvファイルに保管されます。

合計59行の生データがありますが、一部はキャプチャーに表示されていません。

観察により、漢字が含まれている3行目は認識されないことが予想されます。さらに、以下のことがわかります。

  • SKUデータには、34-9923、XC-3211、pb710125などが含まています。したがって、SKUデータの解析に使われるルールはたとえば次のようになります。

    [Name] (名前)

    [Type] (タイプ)

    [Value] (値)

    "SKU"

    "Format"

    "(DIGIT DIGIT|LETTER LETTER) '-'? DIGIT DIGIT DIGIT DIGIT (DIGIT DIGIT?)? "

  • Sizeデータの場合、正しい形式は、2つまたは3つの長さの乗算と長さの単位です。したがって、Sizeデータの解析に使われるルールはたとえば次のようになります。

    [Name] (名前)

    [Type] (タイプ)

    [Value] (値)

    "LengthUnit"

    "Enumeration"

    " 'm' | '\'' | 'inch' | 'inches' | '\"'"

    "BY"

    "Enumeration"

    "'X' | 'x' | 'by' "

    "Length"

    "Format"

    "(INT | FRACTION | DECIMAL) WHITESPACE* LengthUnit "

    "Size"

    "Combination"

    "Length BY Length BY Length"

    "Size"

    "Combination"

    "Length BY Length"

2つの[Combination] (組み合わせ)ルールでは同じ名前が使われます。この場合、ルールは、このテーブルに示す上から下の順序で実行されます。

  • Weightデータの場合、正しい形式は、重量+重量単位です。したがって、Weightデータの解析に使われるルールは次のとおりです。

    [Name] (名前)

    [Type] (タイプ)

    [Value] (値)

    "WeightUnit"

    "Enumeration"

    " 'lb' | 'lbs' | 'pounds' | 'Kg' | 'pinds'"

    "Weight"

    "Format"

    "(INT | FRACTION | DECIMAL) WHITESPACE* WeightUnit "

これで、このシナリオの2つのステップの複製を開始できます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。