カラム分析での有効および無効な行の取得 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio
カラム分析の結果に対して既製ジョブを生成することができます。このジョブは、有効/無効な行またはその両方の行を再取得し、それらを出力ファイルまたはデータベースに書き込みます。

始める前に

パターンを使用するカラム分析が作成され実行されていること。

手順

  1. 分析するカラムを定義するおよびカラム分析に正規表現またはSQLパターンを追加するで説明されている手順を実行し、パターンを使用するカラム分析を作成します。
  2. カラム分析を実行します。
  3. [Analysis Results] (分析結果)ビューで、分析対象カラムの名前の下の[Pattern Matching] (パターンマッチング)をクリックします。

    パターンマッチングの生成グラフと、一致結果の詳細を示すテーブルが表示されます。

  4. [Pattern Matching] (パターンマッチング)テーブルのパターンの行を右クリックして、[Generate Jobs] (ジョブの生成)を選択します。

    [Job Selector] (ジョブセレクター)ダイアログボックスが表示されます。

    特定のデータベースで定義されているパターンを使用してカラムを分析すると、複数のELTジョブを生成できるようになります。
    Javaまたはデフォルトの言語で定義されているパターンを使用してカラムを分析すると、1つのETLジョブを生成できるようになります。
    正規表現またはSQLパターンを作成して定義する方法の詳細は新しい正規表現またはSQLパターンを作成するを参照して下さい。
  5. ダイアログボックスで、次を選択します。
    オプション 目的
    [generate an ELT job to get only valid rows] (有効行のみ取得するELTジョブを生成) 抽出、ロード、変換プロセスを使用するジョブを生成し、出力ファイルに分析対象カラムの有効な行を書き込みます。

    このオプションはAmazon Redshiftデータベースには使用できません。

    [generate an ELT job to get only invalid rows] (無効行のみ取得するELTジョブを生成) 抽出、ロード、変換プロセスを使用するジョブを生成し、出力ファイルに分析対象カラムの無効な行を書き込みます。

    このオプションはAmazon Redshiftデータベースには使用できません。

    [generate an ETL job to handle rows] (行を処理するETLジョブを生成) 抽出、変換、ロードプロセスを使用するジョブを生成し、出力ファイルに分析対象カラムの有効/無効な行を書き込みます。
    この例では、[generate an ETL job to handle rows] (行を処理するETLジョブを生成)オプションを選択して、2つの個別の出力ファイルに有効および無効な電子メール行を出力するジョブを生成します。
  6. ダイアログボックスで、[Finish] (終了)をクリックして次の手順に進みます。
    Integrationパースペクティブに生成されたジョブが開きます。
  7. 必要に応じて、異なる出力コンポーネントを使用して、異なるファイルのタイプまたはデータベースで有効/無効な行を再取得します。
  8. ジョブを保存し、[F6]を押して実行します。
    分析対象カラムの有効および無効な電子メール行が、定義された出力ファイルに書き込まれます。
    取得されるファイルの結果は、ETLモードまたはELTモードによって異なる場合があります。ETLモードではJava正規表現に対してデータが取得されますが、ELTモードでは適切なデーターベースの正規表現に対してデータが取得されます。正規表現エンジンは、JavaとDBMSでは動作が異なるため、結果が異なる場合があります。パターンエディターで異なる正規表現を定義している場合は、差異はさらに大きくなります。