同じソースからデータセットを多数インポートする必要がある場合は、Talend Cloud Data Inventoryでそれらを手動で1つずつ作成する代わりに、クローラーを作成して、1回の操作でアセットの完全なリストを取得できます。
接続をクローリングすると、データを大規模に取得して、インベントリーをより効率的にエンリッチ化できます。接続を選択した後に、クイック検索経由でそのコンテンツをすべてまたは部分的にインポートし、フィルタリングして、どのユーザーが新しく作成されたデータセットにアクセスできるかを選択できるようになります。
クローリングモードには次の2つがあり、ユースケースに応じて使い分けられます。
- 動的選択: その時点でのデータソースの内容に関係なく、特定のフィルタに一致するテーブルをすべて取得します。
- 手動選択: 取得するテーブルを現在の状態のデータソースから手動で選択します。
複数のデータセットに対して接続をクローリングする場合は、次の前提条件と制限が伴います。
- Talend Cloud Management Consoleで、[Dataset administrator] (データセットマネージャー)ロールか[Dataset manager] (データセットマネージャー)ロール(または少なくとも[Crawling - Add] (クローリング - 追加)権限)が自分に割り当てれていること。
- Remote Engine 2022-02以降を使用していること。
- JDBC接続からデータのみをクローリングし、接続からクローラーを1つのみ同時に作成できます。
手順
-
接続用にクローラーの作成を開始するためには、次のいずれかの操作を行います。
- 接続リストで接続にカーソルを置き、[Crawl connection] (接続をクローリング)アイコンをクリックして、[Add crawler] (クローラーを追加)ボタンをクリックします。
- 接続リストで接続をクリックし、ドロワーパネルの[Crawler] (クローラー)タブを選択して、[Add crawler] (クローラーを追加)をクリックします。
クローラー設定ウィンドウが開きます。
-
目的のクローリングモードを選択します。
-
インポートするテーブルをデータソースから選択し、[Next] (次へ)をクリックします。
次に、作成されるデータセットにアクセスできるユーザー(およびその権限)を定義する必要があります。
-
データセットにアクセスできる人物リストにユーザーを追加するには、以下のどちらかを行えます:
重要: 続行するには、データセットのオーナーを少なくとも1人選択する必要があります。
共有とロールの詳細は、
データセットを共有をご覧ください。
-
[Next] (次へ)をクリックして、最後の設定ステップに到達します。
-
クローラーの名前(この場合はSnowflake crawler)を入力します。オプションとして、[Description] (説明)にもクローラーのユースケースとスコープを入力します。
-
[Run] (実行)をクリックします。
背景で非同期プロセスが起動され、接続から作成されたデータセットをクロールします。接続リストに戻ります。右側にあるドロワーパネルの
[Crawler] (クローラー)タブは開いたままとなり、データセット作成の進行状況やサンプルの可用性をここで監視できます。
注: サンプルがすべてフェッチされた場合に、クローリングされた全データセットのデータクオリティとTalend Trust Scoreは完全に計算され、データセットリストと各データセットの概要に表示されます。サンプルが利用できるようになる前にクローリングされたデータセットの1つで作業し始めたい場合は、データセットサンプルビューで[Refresh sample] (サンプルを更新)をクリックすると、1つを手動で取得できます。
タスクの結果
テーブルから作成されたデータセットは、データセットリストに徐々に追加されます。
実行開始後に、クローラー設定を編集できません。接続を(別のテーブル選択または共有パラメーターで)再びクロールするには、クローラーを削除して、新しいクローラーを作成します。
データセット検索でクローラー名をファセットとして使って、特定のクローラーにリンクされているデータセットをすべて表示できます。