ブロッキングキーを定義 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-04-16
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

このタスクについて

ブロッキングキーを定義することは必須ではありませんが、定義することを強くお勧めします。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証が必要なレコード数が減ります。ブロッキングカラムを使うと、大型のデータセットを処理する時に非常に便利です。

手順

  1. [Data] (データ)セクションで[Select Blocking Key] (ブロッキングキーを選択)タブをクリックします。
  2. ブロックで処理されたデータをパーティショニングするカラムの名前をクリックします。
    選択されたカラムと同じ名前を持つブロッキングキーが、[Blocking Key] (ブロッキングキー) テーブルにリスト表示されます。
    [ブロッキングキー]セクションにあるブロッキングキーとそのパラメーターの例。
    テーブルでは複数のカラムを定義できますが、生成されて[Data] (データ)テーブルのBLOCK_KEYカラムにリスト表示されるブロッキングキーは1つだけです。
    たとえば、最初の文字が同じであるレコードを処理するようcountryカラムやlnameカラムでアルゴリズムを使用すると、国やラストネームの最初の文字が同じであるデータレコードが同じブロックにグルーピングされます。比較は、各ブロック内のレコードに限定されています。
    [Blocking key] (ブロッキングキー)テーブルからカラムを削除するには、そのカラムを右クリックして[Delete] (削除)を選択するか、[Data] (データ)テーブルでそのカラムの名前をクリックします。
  3. ブロッキングキー用のアルゴリズムを選択し、必要に応じて[Blocking key] (ブロッキングキー)テーブルで他のパラメーターを設定します。
    この例で使用されているブロッキングキーは1つのみです。countryカラムにある各単語の先頭の文字が取得され、BLOCK_KEYカラムにリスト表示されます。
  4. [Chart] (チャート)をクリックし、生成されたキーを計算して[Data] (データ)テーブルでサンプルレコードをグルーピングし、その結果をチャートに表示します。
    このチャートで、ブロック数に関する統計を視覚化し、望んでいる結果に基づいてブロッキングパラメーターを適用させることができます。