分析済みカラムの重複値を特定するジョブを生成 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Profilingパースペクティブを使ってデータベーステーブルのカラムを分析し、個別値、一意値、重複値の数についてシンプル統計を行えば、後で既製ジョブを生成することで、指定されたカラムから重複値を除外できるようになります。

始める前に

Oracleデータベースに接続する場合は、Oracleデータベースクライアントをインストールしてください。

手順

  1. Profilingパースペクティブから:
    1. カラム分析を作成します。カラム分析の作成方法の詳細な手順は、分析するカラムを定義してインジケーターを設定をご覧ください。
    2. 指定されたカラムでシンプル統計インジケーターを設定します。
  2. 分析を実行し、結果を[Analysis Results] (分析結果)ビュー内に開きます。
  3. 一意値および重複値を分類する分析済みカラムの名前をクリックしてから、[Simple Statistics] (シンプル統計)をクリックして、シンプル統計セクションを展開します。
  4. [Label] (ラベル)リストで、[Distinct Count] (個別数)[Unique Count] (一意数)[Duplicate Count] (重複値)のいずれかを右クリックして、コンテキストメニューから[Identify duplicates] (重複を検出)を選択します。

    Talend StudioIntegrationパースペクティブが開き、該当するコンポーネントで生成されたジョブが表示されます。

    データベース入力コンポーネントとtUniqRowコンポーネントは、接続および分析中のカラムに応じて既に設定されています。

    2つの出力コンポーネントは、この既製ジョブではファイルコンポーネントですが、これをデータベース出力コンポーネントに置き換えて、重複値および個別値を直接目的のデータベースに書き込むこともできます。

  5. 2つの出力コンポーネントを次の手順で設定します。
    1. 最初に[Uniques] (一意値)接続を持つ出力コンポーネントをダブルクリックし、[Local Filename] (ローカルファイル名)フィールドで個別値を保存する出力ファイルのパスを設定します。
    2. 次に[Duplicates] (重複)接続を持つ出力コンポーネントをダブルクリックし、[File Name] (ファイル名)フィールドで重複値を保管する出力ファイルのパスを設定します。
    3. ジョブを保存し、F6を押して実行します。
      個別値および重複値は、指定された出力ファイルに書き込まれます。
    4. 必要に応じて、生成されたジョブでtFileOutputdelimitedを右クリックし、[Data Viewer] (データビューアー)を選択します。

      Talend Studioに標準化されたデータのプレビューが開きます。