ベーシックタイプのルールを使ってデータを正規化する - 7.3

Standardization

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

このシナリオは、Talend Data Management PlatformTalend Big Data PlatformTalend Real Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、次の目的で2つのステップを実行します。

  1. 着信データを正規化する(非準拠データから準拠データを分離する)。

  2. 目的のデータを抽出して表示する。

これらの2つのステップを複製する前に、どのルールの構成が必要かを知るために、ソースデータを分析する必要があります。このシナリオでは、ソースデータは、partsmasterという.csvファイルに保管されます。

合計59行のrawデータがありますが、一部はキャプチャーに表示されていません。

観察により、漢字が含まれている3行目は認識されないことが予想されます。さらに、以下のことがわかります。

  • SKUデータには、34-9923、XC-3211、pb710125などが含まています。したがって、SKUデータの解析に使われるルールはたとえば次のようになります。

    [Name] (名前)

    [Type] (タイプ)

    [Value] (値)

    "SKU"

    "Format"

    "(DIGIT DIGIT|LETTER LETTER) '-'? DIGIT DIGIT DIGIT DIGIT (DIGIT DIGIT?)? "

  • Sizeデータの場合、正しい形式は、2つまたは3つの長さの乗算と長さの単位です。したがって、Sizeデータの解析に使われるルールはたとえば次のようになります。

    [Name] (名前)

    [Type] (タイプ)

    [Value] (値)

    "LengthUnit"

    "Enumeration"

    " 'm' | '\'' | 'inch' | 'inches' | '\"'"

    "BY"

    "Enumeration"

    "'X' | 'x' | 'by' "

    "Length"

    "Format"

    "(INT | FRACTION | DECIMAL) WHITESPACE* LengthUnit "

    "Size"

    "Combination"

    "Length BY Length BY Length"

    "Size"

    "Combination"

    "Length BY Length"

2つの[Combination] (組み合わせ)ルールでは同じ名前が使われます。この場合、ルールは、このテーブルに示す上から下の順序で実行されます。

  • Weightデータの場合、正しい形式は、重量+重量単位です。したがって、Weightデータの解析に使われるルールは次のとおりです。

    [Name] (名前)

    [Type] (タイプ)

    [Value] (値)

    "WeightUnit"

    "Enumeration"

    " 'lb' | 'lbs' | 'pounds' | 'Kg' | 'pinds'"

    "Weight"

    "Format"

    "(INT | FRACTION | DECIMAL) WHITESPACE* WeightUnit "

これで、このシナリオの2つのステップの複製を開始できます。