大規模データセットからより多くのデータをフェッチする - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

50,000行など、Talend Data Preparationで大規模データセットで作業をする場合、データセットパラメーターを確認すると、最初の10,000行のサンプルだけが表示されています。

他のデータセットの場合と同様に、データのプレパレーションを開始してファンクションを適用できます。

1つ違いがあるのは、フィルターをデータのいずれかのタイプに適用するときです。サンプルで作業をしているので、最初の10,000行の中から一致する行だけが取得されます。ただし、残りの40,000行から一致する行をさらに取得することができ、この新しいサンプルに基づいてプレパレーションを調整できます。

手順

  1. グリッドの左上にあるメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。

    フィルターが正しく適用され、一致する行だけがグリッドに表示されていることがフィルターバーで確認できます。ほかにもどのようなフィルターでも選択できます。さらに、データのカテゴリーにフィルターを適用するオプションは、サンプルに一致する値がない場合でも個別のカラムに対して使用できます。カラムヘッダーのメニューアイコンをクリックして、利用可能なオプションを表示します。

    フィルターバーの[Fetch more] (さらに取得)ボタンを見ると、現在サンプルで作業をしていること、およびより多くの行がフィルターに一致している可能性があることもわかります。

  2. [Fetch more] (さらに多くの行を取得)をクリックして、現在のフィルターに一致する行をさらに取得します。

    [Fetch additional rows] (追加行の取得)ダイアログボックスが開いたら、データの取得状況を確認できます。

    10,000行の結果に達したとき、またはデータセットの終了に達すると、Talend Data Preparationは自動的に停止します。ユーザーがプロセスを停止して、すでに見つかった行を表示することもできます。停止後、画面がグリッドに戻ります。画面上の作業対象サンプルは、フェッチした行で構成されています。今後適用するフィルターまたはファンクションは、このサンプルだけに適用されます。

    適用するために最初に選択したフィルターがどの行とも一致しない場合は、すべてのフィルターを消去することも、データセット全体を検索して一致する行がないか探すこともできます。

  3. サンプルを最初の状態に戻すには、すべてのフィルターを消去します。

    各フィルターのバツ印をクリックするか、ゴミ箱アイコンをクリックしてフィルターを消去します。

タスクの結果

グリッドには再び、データセットの最初の10,000行が表示されるので、データのプレパレーションを続行できます。