Talend Data Preparationの概念 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation
以下の定義について学習すれば、Talend Data Preparationの主な概念を理解しやすくなります。
  • 接続: 接続とは、データベース、ファイルシステム、分散システム、プラットフォームなど、データセットが保管されている環境またはシステムのことです。システムの接続は、いちど設定すれば再利用できます。
  • データセット: データセットには、1つ以上のプレパレーションの原材料として使用できるロウデータが保存されています。データセットは、元データに影響を与えることなくレシピステップを適用できるテーブルとして表示されます。データセットは複数のプレパレーションで再使用できます。
  • サンプル: お使いのデータはサンプルの形式で表示され、データセットメタデータから取得されます。
  • プレパレーション: プレパレーションとは、データセットとレシピをリンクするものです。データによって達成を目指す最終結果です。この成果をファイルとしてエクスポートしたり、データターゲットに接続したりできます。ひとつのプレパレーションはひとつのデータセットに対応し、結果を生成するためのレシピが適用されます。元のデータセットが変更されることはありません。
  • レシピ: レシピは、「何かを作成または準備するための材料リストと一連の指示」として文字通り定義されます。Talend Cloud Data Preparationでは、材料はデータセットと呼ばれるローデータに相当し、指示はデータセットに適用される関数のセットです。レシピは視覚的には、左側の折りたたみパネルに、上から下の順に表示される一連の関数です。レシピはプレパレーションを介してデータセットにリンクされています。レシピの各更新は、必ずプレパレーションに自動保存されます。
  • 関数: 関数は、空の行の削除など、データセットの行やカラムまたはデータセット全体に適用される処理です。関数はプレパレーションの一部として適用されるので、元データは変更されません。適用された関数は適用順にレシピに記録されます。
  • セマンティックタイプ: カラムやレコードのセマンティックタイプは、その内部で見つかるデータのタイプ(名前、ZIPコード、電話番号、座標など)に該当します。Talend Cloudアプリケーションはすべてセマンティック認識を活用できます。そのため、サンプルデータはデフォルトのセマンティックタイプや自分で作成したセマンティックタイプで自動的に分類されます。
  • Cloud Engine for Design: ユーザーが処理エンジンを設定しなくても簡単にデータを処理できるようにする組み込みランナーです。このエンジンを使うと、2つのオブジェクトを並行して実行できます。データの高度な処理には、セキュアなRemote Engine Gen2をインストールすることをお勧めします。
  • Remote Engine Gen2: オブジェクトを安全に実行できる、セキュアな実行エンジンです。独自の環境(仮想プライベートクラウドまたはオンプレミス)でエンジンを作成して設定し、実行環境とリソースを制御できます。

    Remote Engineの特長:

    • Talendがパイプラインのデータやリソースにアクセスできないため、安全かつセキュアな環境でのデータ処理が可能です。
    • 大量のデータを移動させて計算するのではなくデータの局所性を高めることで、最適なパフォーマンスを実現します。

接続、データセット、プレパレーション間の関係: