Apache Spark BatchのtStandardizeRowプロパティ - Cloud - 8.0

Standardization

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化
Last publication date
2024-02-28

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtStandardizeRowを設定するために使われます。

Spark Batch tStandardizeRowコンポーネントは、データクオリティファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Column to parse] (解析するカラム)

受信したデータフローから解析するカラムを選択します

[Standardize this field] (このフィールドを標準化)

識別されるルール準拠データを標準化するには、このチェックボックスをオンにします。つまり、識別されたデータの重複を、特定のインデックスからの対応する標準化されたデータに置き換えます。

標準化されたデータを提供するこのインデックスの詳細は、tSynonymOutputをご覧ください。

このチェックボックスをオンまたはオフにするたびにこのコンポーネントのスキーマが自動的に変更されるため、特定のジョブで、アクティブ化された[Sync columns] (カラムを同期)ボタンをクリックして、スキーマの不整合を修正する必要があります。

[Generate analyzer code as routine] (ルーチンとしてアナライザーコードを生成する)

このボタンをクリックすると、Talend Studioのデータパーサーが[Conversion rules] (変換ルール)テーブルで定義されたルールを認識できるようになります。

特定のジョブで、ルールが作成された時、この操作はこのルールの実行に必要です。他方、ユーザーが変更した既存のルールに対するものである場合、この操作は、変更されたルールのタイプが[Enumeration] (列挙)[Format] (フォーマット)、または[Combination] (組み合わせ)の場合にのみ必要です。すべてのルールタイプの詳細は、ルールのタイプをご覧ください。

and

インポートまたはエクスポートボタンをクリックして、特定の標準化ルールセットを[DQ Repository] (DQリポジトリー)と交換します。

- エクスポートボタンをクリックすると、Talend StudioProfilingパースペクティブに切り替わり、[Parser rule Settings] (パーサールールの設定)ビューがワークスペースで開き、関連するコンテンツが自動的に入力されます。その後、必要であれば、エクスポートされたルールセットを編集し、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Rules] (ルール) > [Parser] (パーサー)フォルダーに保存します。

- インポートボタンをクリックすると、インポートウィザードが開き、目的の標準化ルールをインポートできます。

詳細は、パーサールールを設定および管理をご覧ください。

[Conversion rules] (変換ルール)

適用する必要があるルールを次のように定義します。

-[Name] (名前)カラムに、使うルールの名前を入力します。この名前は、XMLタグまたはJSON属性名として、また、このルールで識別される受信データにラベルを付けるためのトークン名と使われます。

-[Type] (タイプ)カラムで、適用する必要のあるルールのタイプを選択します。利用可能なルールタイプの詳細は、ルールのタイプをご覧ください。

-[Value] (値)カラムに、ルールの構文を入力します。

-[Search mode] (検索モード)カラムで、リストから検索モードを選択します。検索モードは、[Index] (インデックス)ルールタイプでのみ使用できます。利用可能な検索モードの詳細は、インデックスルールの検索モードをご覧ください。

[Index] (インデックス)ルールタイプを選択した場合は、次のようにパスを設定するために使われます。
  • ローカルモードの場合:
    • Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。
    • Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。
  • スタンドアロンおよびYarnモードの場合は、prefix://file pathとなります。
  • インデックスがクラスターにある場合は、hdfs://hdpnameservice1/file pathとなります。

目的のパーサー規則を作成するのに役立つテストビューが提供されています。詳細は、パーサールールを設定および管理をご覧ください。

詳細設定

[Advanced options for INDEX rules] (インデックスルールの詳細オプション)

- [Search UNDEFINED fields] (未定義フィールドを検索): コンポーネントを使ってインデックス実行結果内で未定義のトークンを検索する場合は、このチェックボックスをオンにします。

- [Word distance for partial match] (部分一致の単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数を設定するために使われます。デフォルト値は1です。

- [Max edits for fuzzy match] (ファジーマッチングの最大編集数) (レーベンシュタインアルゴリズムに基づいており、あいまいモードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば最大編集距離が2であれば、挿入、削除、置換を2回まで行うことができます。各一致のスコアは、その用語の編集距離に基づいています。

[Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。

注: 以前のリリースからTalend Studioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。

Output format (出力形式)

-XML: このオプションはデフォルトで選択されています。正規化されたデータをXML形式で出力します。

-JSON: このオプションを選択すると、正規化されたデータがJSON形式で出力されます。

使用方法

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Connections] (接続)

外部リンク(このコンポーネントから別のコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

受信リンク(あるコンポーネントからこのコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

接続の詳細は、ジョブにおける接続の使い方をご覧ください。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。