以下の定義について学習すれば、Talend Data Preparationの主な概念を理解しやすくなります。
- 接続: 接続とは、データベース、ファイルシステム、分散システム、プラットフォームなど、データセットが保管されている環境またはシステムのことです。システムの接続は一度セットアップすれば再利用できます。
- データセット: データセットには、1つ以上のプレパレーションの原材料として使用できる生データが保存されています。データセットは、元データに影響を与えることなくレシピステップを適用できるテーブルとして表示されます。データセットは複数のプレパレーションで再使用できます。
- サンプル: お使いのデータはサンプルの形式で表示され、データセットメタデータから取得されます。
- プレパレーション: プレパレーションとは、データセットとレシピをリンクするものです: データによって達成を目指す最終結果です。この成果をファイルとしてエクスポートしたり、データターゲットに接続したりできます。プレパレーションは1つのデータセットをレシピに適用して結果を生成します。元のデータセットが変更されることはありません。
- レシピ: レシピは、「何かを作成または準備するための材料リストと一連の指示」として文字通り定義されます。Talend Cloud Data Preparationでは、材料はデータセットと呼ばれる生データに相当し、指示はデータセットに適用されるファンクションのセットです。レシピは視覚的には、左側の折り畳みパネルに、上から下の順に表示される一連のファンクションです。レシピはプレパレーションを介してデータセットにリンクされています。レシピの各アップデートは、必ずプレパレーションに自動保存されます。
- ファンクション: ファンクションは、空の行の削除など、データセットの行やカラムまたはデータセット全体に適用される処理です。ファンクションはプレパレーションの一部として適用されるので、元データは変更されません。適用されたファンクションは適用順にレシピに記録されます。
- セマンティックタイプ: カラムやレコードのセマンティックタイプは、その内部で見つかるデータのタイプ(名前、ZIPコード、電話番号、座標など)に該当します。Talend Cloudアプリケーションはすべてセマンティック認識を活用できます。そのため、サンプルデータはデフォルトのセマンティックタイプや自分で作成したセマンティックタイプで自動的に分類されます。
- Cloud Engine for Design: Cloud Engine for Designは、ユーザーが処理エンジンを設定しなくても簡単にデータを処理できるようにする組み込みランナーのことです。このエンジンを使うと、2つのオブジェクトを並行して実行できます。データの高度な処理のためには、セキュアなRemote Engine Gen2をインストールすることをお勧めします。
- Remote Engine Gen2: Remote Engine Gen2は、オブジェクトを安全に実行できるセキュアな実行エンジンです。独自の環境(仮想プライベートクラウドまたはオンプレミス)でエンジンを作成して設定し、実行環境とリソースを制御できます。
Remote Engineの特長:
- Talendがパイプラインのデータやリソースにアクセスできないため、安全かつセキュアな環境でのデータ処理が可能です。
- 大量のデータを移動させて計算するのではなくデータの局所性を高めることで、最適なパフォーマンスを実現します。
接続、データセット、プレパレーション間のリレーションシップ: