大型のルックアップテーブルを処理する場合のベストプラクティス - 7.2

Data Integrationジョブの例

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン
この記事では、億単位のレコードを処理するTalendジョブの設計時に採用すべきベストプラクティスについて説明します。
  • メインおよびルックアップデータを理解するためにプロファイリングを実行します。Talendデータプロファイリングを使用し、カラム分析、冗長性分析などの分析を実行することで、パターンとキーを理解します。
  • 小さなテーブルをルックアップに使用します。Talendはジョブの開始時にルックアップをメモリに読み込みます。そうすることで、ルックアップのサイズが小さいほどジョブによるルックアップデータの処理が高速になります。
  • ルックアップテーブルに必要なカラムの最小数をロードして、メモリの使用を最適化します。未使用のカラムをすべて削除します。
  • ルックアップテーブルが大きい場合はブロッキングキーを使用します。ただし、ルックアップキーはあまり変化しません。

    最初のステップとして、データ分析に基づいてルックアップキーをテーブルにロードし、このテーブルをルックアップジョブで実際のルックアップテーブルとして使用します。このようにして、ルックアップでレコードのサブセットのみが使用されます。ブロッキングキーはカラムの連結にもなります。実行されるルックアップの数と各ルックアップ内の行数を定義するディストリビューションを理解するために、ブロッキングキーに対して分析を行うことができます。一致分析におけるブロッキングキーの使い方については、一致分析の作成を参照してください。この特定のシナリオでは、複合マッチを行いません。ただし、ブロッキングキーはルックアップのためにメモリにロードするデータセットを少なくするのに良い方法です。独自のカスタムブロッキングキーを設計できます。

  • ソーステーブルとルックアップテーブルが同じデータベースにある場合は、ルックアップにデータベース結合を使うことを検討してください。選択したカラムと結合条件を入力コンポーネントに追加できます。それに合わせてスキーマを更新する必要があります。
  • ルックアップとソーステーブルが同じデータベース内にある場合は、ELT (tELT*)コンポーネントを使用します。データベースにTalend SQLの処理に十分なリソースがある場合、これは良いオプションになり得ます。これは自動生成されます。また、必要な変換がすべてデータベースによって処理できる場合にも良いオプションになります。
  • "[Reload for every row] (すべての行にリロード)"オプションは、大きなルックアップには使用しないでください。ジョブがまだ実行中であるため、この設定はルックアップテーブルが変化している時に使用する必要があります。この設定は、ジョブがルックアップテーブルに最新の変更をロードする必要がある場合に使用します。
  • Talendルックアップジョブが実行されるインフラストラクチャーを理解します。ジョブ実行時にシステムがどの程度ビジーになるかを知っておくと役に立ちます。Talend JobServerで実行されるさまざまな処理またはその他のTalendジョブを知り、ルックアップのように多くのメモリを使用するジョブのスケジューリングを行うことが、ベストプラクティスです。