エントリーをソートする - 7.3

Processing (インテグレーション)

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント
データガバナンス > サードパーティーシステム > 変換処理コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント
Last publication date
2024-03-05

このシナリオでは、3つのコンポーネントからなるジョブについて説明しています。tRowGeneratorを使って作成されたランダムなエントリーはtSortRowに直接送られ、定義した入力値に従ってソートされます。このシナリオでは、入力フローに営業担当者の名前、売上、勤続年数が含まれていると仮定しています。フィルタリング操作の結果は、[Run] (実行)コンソールに表示されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

  • このユースケースに必要な3つのコンポーネント、tRowGeneratortSortRowtLogRow[Palette] (パレット)からデザインワークスペースにドロップします。

  • [Row] (行) [main] (メイン)リンクを使って、コンポーネントを相互に接続します。

  • tRowGeneratorエディターで、Sortコンポーネントでランダムに使われる値を定義します。この特定のコンポーネントの使用については、trowgenerator_c.htmlをご覧ください。

  • このシナリオでは、各営業担当者をそのSales値と勤続年数に従ってランク付けします。

  • tSortRowをダブルクリックして、[Basic settings] (基本設定)タブパネルを表示します。売上の値にソートの優先順位を設定し、第2の基準に勤続年数を設定するために使われます。

  • [+]ボタンを使って、必要な行数を追加します。ソートのタイプを設定するために使われます。この場合、両方の基準は整数で、ソートは数値です。最後に、必要な出力がランク分類であるため、順序を降順に設定します。

  • [Advanced Settings] (詳細設定)タブを表示し、[Sort on disk] (ディスクでソート)チェックボックスをオンにして、一時メモリパラメーターを変更します。[Temp data directory path] (一時データのディレクトリーパス)フィールドで、一時データを保管するディレクトリーへのパスを入力します。[Buffer size of external sort] (外部ソートのバッファーサイズ)フィールドで、処理に割り当てる最大バッファー値を設定するために使われます。

警告:

デフォルトのバッファー値は1000000ですが、処理する行やカラムの数が多くなるほど、ジョブが自動停止しないようにするには、値を大きくする必要があります。その場合、メモリ不足を示すエラーメッセージが表示されます。

  • このフローを出力コンポーネントtLogRowに接続していることを確認して、ジョブコンソールに結果を表示します。

  • F6を押してジョブを実行します。ランキングは、第1に売上高、第2に経験年数に基づいています。