Talend Cloud Pipeline Designerの概念 - Cloud

Talend Cloud Pipeline Designerユーザーガイド

Version
Cloud
Language
日本語 (日本)
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
デプロイメント > デプロイ中 > パイプラインの実行
データガバナンス > データのフィルタリング
データクオリティとプレパレーション > データのフィルタリング
データクオリティとプレパレーション > データセットの管理
管理と監視 > ログの監視
管理と監視 > 実行の監視

この図で定義を学習すれば、Talend Cloud Pipeline Designerの主な概念が理解しやすくなります。

接続、データセット、その他のエンティティの間の関係
  • Remote Engine Gen2: Remote Engine Gen2はパイプラインを安全に実行できるセキュアな実行エンジンです。独自の環境(仮想プライベートクラウドまたはオンプレミス)でエンジンを作成して設定し、実行環境とリソースを制御できます。

    Remote Engine Gen2では以下のことが確認されています:

    • Talendがパイプラインのデータやリソースにアクセスできないため、安全かつセキュアな環境でのデータ処理が可能です。

    • 大量データを移動して計算する代わりに、データの局所性を高めることで最適なパフォーマンスを実現できます。

  • Cloud Engine for Design: Cloud Engineは、ユーザーが処理エンジンをセットアップしなくてもパイプラインを簡単にデザインできる組み込みランナーです。このエンジンを使用すると、2つのパイプラインを並行して実行できます。データの高度な処理のためには、セキュアなRemote Engine Gen2をインストールすることをお勧めします。
  • 接続: 接続とは、データベース、ファイルシステム、分散システム、プラットフォームなど、データセットが保管されている環境またはシステムのことです。システムの接続は一度セットアップすれば再利用できます。
  • データセット: データセットとはデータのコレクションのことです。データベーステーブル、ファイル名、トピック(Kafka)、ファイルパス(HDFS)などを指定できます。また、手動で入力してテストデータセットを作成し、テスト接続に保管すること、さらにはローカルファイルをデータセットとしてインポートすることもできます。複数のデータセットを同じシステムに接続し(1対多接続)、再利用可能な接続で保管できます。
  • パイプライン: パイプラインは、着信データのリッスンを継続するプロセス(Talendジョブに類似)、ソースからデータを取得するパイプ、データセットから構成され、デスティネーションに送信されます。
    以下のパイプラインを作成できます。
    • バッチ型または有限型 - データが収集され、データがすべて処理されるとパイプラインが停止します。

    • ストリーミング型または無限型 - パイプラインを停止しない限りデータの読み取りは停止されません。

  • プロセッサー: プロセッサーとはパイプラインに追加できるコンポーネントのことで、受信されるバッチデータやストリーミングデータを変換し、変換されたデータをパイプラインの次のステップに返します。
  • [Sample] (サンプル): お使いのデータはサンプルの形式で表示され、データセットメタデータから取得されます。