複数のデータセットでクローリング - Cloud

Talend Cloud Data Inventoryユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Inventory
Content
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2023-11-10

同じソースからデータセットを多数インポートする必要がある場合は、Talend Cloud Data Inventoryでそれらを手動で1つずつ作成する代わりに、クローラーを作成して、1回の操作でアセットの完全なリストを取得できます。

接続をクローリングすると、データを大規模に取得して、インベントリーをより効率的にエンリッチ化できます。接続を選択した後に、クイック検索経由でそのコンテンツをすべてまたは部分的にインポートし、フィルタリングして、どのユーザーが新しく作成されたデータセットにアクセスできるかを選択できるようになります。

クローリングモードには次の2つがあり、ユースケースに応じて使い分けられます。
  • 動的選択: その時点でのデータソースの内容に関係なく、特定のフィルタに一致するテーブルをすべて取得します。
  • 手動選択: 取得するテーブルを現在の状態のデータソースから手動で選択します。

複数のデータセットに対して接続をクローリングする場合は、次の前提条件と制限が伴います。

  • Talend Cloud Management Consoleで、[Dataset administrator] (データセットマネージャー)ロールか[Dataset manager] (データセットマネージャー)ロール(または少なくとも[Crawling - Add] (クローリング - 追加)権限)が自分に割り当てれていること。
  • Remote Engine 2022-02以降を使用していること。
  • JDBC接続からデータのみをクローリングし、接続からクローラーを1つのみ同時に作成できます。

手順

  1. 接続用にクローラーの作成を開始するためには、次のいずれかの操作を行います。
    • 接続リストで接続にカーソルを置き、[Crawl connection] (接続をクローリング)アイコンをクリックして、[Add crawler] (クローラーを追加)ボタンをクリックします。
    • 接続リストで接続をクリックし、ドロワーパネルの[Crawler] (クローラー)タブを選択して、[Add crawler] (クローラーを追加)をクリックします。
    クローラー設定ウィンドウが開きます。
  2. 目的のクローリングモードを選択します。
  3. インポートするテーブルをデータソースから選択し、[Next] (次へ)をクリックします。

    次に、作成されるデータセットにアクセスできるユーザー(およびその権限)を定義する必要があります。

  4. データセットにアクセスできる人物リストにユーザーを追加するには、以下のどちらかを行えます:
    • ユーザーまたはグループにカーソルを置き、プラスアイコンをクリックして、右側のカラムにあるドロップダウンリストで付与したい権限を割り当てます。
    • ユーザーまたはグループを選択し、[Add as] (追加先)をクリックして、ドロップダウンリストで付与したい権限を割り当てます。

      Ctrl + ClickShift + Clickを使うと、グループまたはユーザーを一度に複数選択できます。

    重要: 続行するには、データセットのオーナーを少なくとも1人選択する必要があります。
    共有とロールの詳細は、データセットを共有をご覧ください。
  5. [Next] (次へ)をクリックして、最後の設定ステップに到達します。
  6. クローラーの名前(この場合はSnowflake crawler)を入力します。オプションとして、[Description] (説明)にもクローラーのユースケースとスコープを入力します。
  7. [Run] (実行)をクリックします。
    背景で非同期プロセスが起動され、接続から作成されたデータセットをクロールします。接続リストに戻ります。右側にあるドロワーパネルの[Crawler] (クローラー)タブは開いたままとなり、データセット作成の進行状況やサンプルの可用性をここで監視できます。
    注: サンプルがすべてフェッチされた場合に、クローリングされた全データセットのデータクオリティとTalend Trust Scoreは完全に計算され、データセットリストと各データセットの概要に表示されます。サンプルが利用できるようになる前にクローリングされたデータセットの1つで作業し始めたい場合は、データセットサンプルビューで[Refresh sample] (サンプルを更新)をクリックすると、1つを手動で取得できます。

タスクの結果

テーブルから作成されたデータセットは、データセットリストに徐々に追加されます。

実行開始後に、クローラー設定を編集できません。接続を(別のテーブル選択または共有パラメーターで)再びクロールするには、クローラーを削除して、新しいクローラーを作成します。

データセット検索でクローラー名をファセットとして使って、特定のクローラーにリンクされているデータセットをすべて表示できます。

ヒント: API経由でクローラーの実行を自動化し、一定の間隔で接続先からデータを取得することもできます。詳細は、Scheduling a crawler runをご覧ください。