メタデータインポート中にデータプロファイリングを有効にする場合、Talend Data Catalogは、インポート範囲にあるテーブルをすべて段階的にプロファイル化してサンプル行を収集します。
データプロファイリングとメタデータインポートの両プロセスでデータストアコネクティビティと範囲の詳細が共有されるため、データプロファイリングのコネクティビティを明示的に設定する必要はありません。
データサンプリングとデータプロファイリングは、個別に定義して実行できます。
データサンプリングとデータプロファイリングは、モデル収集の一環として、またはオンデマンドで実行できます。
データサンプリングとデータプロファイリングは、データ分類の自動タグ付けを実行するために必要です。
始める前に
- データソースのブリッジがデータプロファイリングをサポートしていることをご確認ください。
- [Data Management] (データの管理)機能を持つオブジェクトロールが割り当てられていること。
手順
-
[Import Options] (オプションのインポート)タブを開き、データプロファイリングとデータサンプリングのオプション(またはそのいずれか)を有効にします。
-
[Data Profiling] (データプロファイリング)チェックボックスをオンにし、プロファイル化する行の数を定義します。
-
[Data Sampling] (データプサンプリング)チェックボックスをオンにし、プレビューする行の数を定義します。
-
[Profile only objects that are not profiled yet] (プロファイリングされていないオブジェクトのみをプロファイリング)チェックボックスをオンにし、プロファイリングされていないインポート済みオブジェクトに対してのみ、データプロファイリングを有効化します。
このチェックボックスがオフになっている場合、Talend Data Catalogは、最終変更日時に基づいてインポート済みオブジェクトを再プロファイリングします。
-
[Data Classification] (データ分類)チェックボックスをオンにし、新たにプロファイリングされたオブジェクトのデータ分類を自動的に実行します。
-
[Hide data using Sensitivity Label] (秘密度ラベルを使ってデータを非表示)チェックボックスをオンにし、リストから秘密度ラベルを選択して、対象の新しいインポート済みオブジェクトにそのラベルを適用します。
-
変更を保存します。
-
データプロファイリングとデータサンプリング(またはそのいずれか)を実行または更新するには、次の方法のいずれかに従います。
- モデルを再インポートし、オブジェクトページに移動します。
- インポート済みオブジェクトのあらゆるレベルで、データプロファイリングとデータサンプリングを生成します。これには、[Tables] (テーブル) / [Files] (ファイル) / [Views] (ビュー) ([Classifier] (分類子))、[Schema] (スキーマ) / [Package] (パッケージ)、[Model] (モデル)、[File System] (ファイルシステム)フォルダーが含まれます。
- オブジェクトページに移動します。
- [Data Request SQL] (データリクエストSQL)エリアで、必要に応じてオブジェクトにSQLクエリーを指定します。データリクエストSQLは再収集後に使用されます。
- [More actions] (その他のアクション)メニューで、[Generate Data Sampling and Profiling] (データサンプリングとデータプロファイリングの生成)をクリックします。
- 必要に応じて、オプションを設定します。
- [OK]をクリックして操作を実行します。