対象製品...Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
Profilingパースペクティブを使ってデータベーステーブルのカラムを分析し、個別値、一意値、重複値の数についてシンプル統計を行えば、後で既製ジョブを生成することで、指定されたカラムから重複値を除外できるようになります。
始める前に
Oracleデータベースに接続する場合は、Oracleデータベースクライアントをインストールしてください。
手順
-
Profilingパースペクティブから:
-
カラム分析を作成します。カラム分析の作成方法の詳細な手順は、分析するカラムを定義してインジケーターを設定をご覧ください。
-
指定されたカラムでシンプル統計インジケーターを設定します。
-
分析を実行し、結果を[Analysis Results] (分析結果)ビュー内に開きます。
-
一意値および重複値を分類する分析済みカラムの名前をクリックしてから、[Simple Statistics] (シンプル統計)をクリックして、シンプル統計セクションを展開します。
-
[Label] (ラベル)リストで、[Distinct Count] (個別値)、[Unique Count] (一意カウント)、[Duplicate Count] (重複値)のいずれかを右クリックして、コンテキストメニューから[Identify duplicates] (重複を検出)を選択します。
Talend StudioでIntegrationパースペクティブが開き、該当するコンポーネントで生成されたジョブが表示されます。
データベース入力コンポーネントとtUniqRowコンポーネントは、接続および分析中のカラムに応じて既に設定されています。
2つの出力コンポーネントは、この既製ジョブではファイルコンポーネントですが、これをデータベース出力コンポーネントに置き換えて、重複値および個別値を直接目的のデータベースに書き込むこともできます。
-
2つの出力コンポーネントを次の手順で設定します。
-
最初に[Uniques] (一意値)接続を持つ出力コンポーネントをダブルクリックし、[Local Filename] (ローカルファイル名)フィールドで個別値を保存する出力ファイルのパスを設定します。
-
次に[Duplicates] (重複)接続を持つ出力コンポーネントをダブルクリックし、[File Name] (ファイル名)フィールドで重複値を保管する出力ファイルのパスを設定します。
-
ジョブを保存し、F6を押して実行します。
個別値および重複値は、指定された出力ファイルに書き込まれます。
-
必要に応じて、生成されたジョブでtFileOutputdelimitedを右クリックし、[Data Viewer] (データビューアー)を選択します。
Talend Studioに標準化されたデータのプレビューが開きます。