複数のデータセットでクローリング

同じソースからデータセットを多数インポートする必要がある場合は、Talend Cloud Data Inventoryでそれらを手動で1つずつ作成する代わりに、クローラーを作成して、1回の操作でアセットの完全なリストを取得できます。

接続をクローリングすると、データを大規模に取得して、インベントリーをより効率的にエンリッチ化できます。接続を選択した後に、クイック検索経由でそのコンテンツをすべてまたは部分的にインポートし、フィルタリングして、どのユーザーが新しく作成されたデータセットにアクセスできるかを選択できるようになります。

クローリングモードには次の2つがあり、ユースケースに応じて使い分けられます。

その時点でのデータソースの内容に関係なく、特定のフィルターに一致するテーブルをすべて取得する動的選択を使用したクローリングデータセット。
取得するテーブルを現在の状態のデータソースから手動で選択する手動選択を使用したクローリングデータセット。

複数のデータセットに対して接続をクローリングする場合は、次の前提条件と制限が伴います。

Talend Management Consoleで、[Dataset administrator] (データセットマネージャー)ロールか[Dataset manager] (データセットマネージャー)ロール(または少なくとも[Crawling - Add] (クローリング - 追加)権限)が自分に割り当てれていること。
Remote Engine 2022-02以降を使用していること。
JDBC接続からデータのみをクローリングし、接続からクローラーを1つのみ同時に作成できます。

手順

接続用にクローラーの作成を開始するためには、次のいずれかの操作を行います。
- 接続リストで接続にカーソルを置き、[Crawl connection] (接続をクローリング)アイコンをクリックして、[Add crawler] (クローラーを追加)ボタンをクリックします。
- 接続リストで接続をクリックし、ドロワーパネルの[Crawler] (クローラー)タブを選択して、[Add crawler] (クローラーを追加)をクリックします。
クローラー設定ウィンドウが開きます。
目的のクローリングモードを選択します。
- 動的選択の場合、詳細については、動的選択を使ってデータセットをクローリングをご覧ください。
- 手動選択の場合、詳細については、手動選択を使ってデータセットをクローリングをご覧ください。
インポートするテーブルをデータソースから選択し、[Next] (次へ)をクリックします。

次に、作成されるデータセットにアクセスできるユーザー(およびその権限)を定義する必要があります。
データセットにアクセスできる人物リストにユーザーを追加するには、以下のどちらかを行えます:
- ユーザーまたはグループにカーソルを置き、プラスアイコンをクリックして、右側のカラムにあるドロップダウンリストで付与したい権限を割り当てます。
- ユーザーまたはグループを選択し、[Add as] (追加先)をクリックして、ドロップダウンリストで付与したい権限を割り当てます。
  Ctrl + Click か Shift + Click を使うと、グループまたはユーザーを一度に複数選択できます。
情報メモ重要: 続行するには、データセットのオーナーを少なくとも1人選択する必要があります。
共有とロールの詳細は、データセットを共有をご覧ください。
[Next] (次へ)をクリックして、最後の設定ステップに到達します。
クローラーの名前(この場合はSnowflake crawler)を入力します。オプションとして、[Description] (説明)にもクローラーのユースケースとスコープを入力します。
[Run] (実行)をクリックします。
背景で非同期プロセスが起動され、接続から作成されたデータセットをクロールします。接続リストに戻ります。右側にあるドロワーパネルの[Crawler] (クローラー)タブは開いたままとなり、データセット作成の進行状況やサンプルの可用性をここで監視できます。

情報メモ注: サンプルがすべてフェッチされた場合に、クローリングされた全データセットのデータクオリティとTalend Trust Scoreは完全に計算され、データセットリストと各データセットの概要に表示されます。サンプルが利用できるようになる前にクローリングされたデータセットの1つで作業し始めたい場合は、データセットサンプルビューで[Refresh sample] (サンプルを更新)をクリックすると、1つを手動で取得できます。

タスクの結果

テーブルから作成されたデータセットは、データセットリストに徐々に追加されます。

実行開始後に、クローラー設定を編集できません。クローラーが停止または終了している場合は、そのクローラーのテーブル選択、名前、説明を編集できます。ただし、共有設定は編集できません。別の共有設定で接続を再びクロールするためには、クローラーを削除して、新しいクローラーを作成します。

データセット検索でクローラー名をファセットとして使って、特定のクローラーにリンクされているデータセットをすべて表示できます。

ヒント: APIを使ってクローラーの実行を自動化し、一定の間隔で接続先からデータを取得することもできます。詳細は、Scheduling a crawler runをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください

複数のデータセットでクローリング

手順

タスクの結果

このセクション内

このページは役に立ちましたか?