Talend Data Preparationアーキテクチャー - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation
このアーキテクチャー図では、Talend Data Preparationの機能ブロック、これらの機能ブロック間のやり取りを示します。

5種類の機能ブロックが定義されています。

  • クライアントブロックには、WebブラウザーとTalend Studioがあります。

    WebブラウザーからTalend Data Preparation Webアプリケーションにアクセスできます。ここからローカルファイルや他のソースのデータをインポートしたり、このデータの新しいプレパレーションを作成してデータのクレンジングや追加を行ったりします。また、必要に応じてTalend Dictionary Serviceサーバーにアクセスして、Webアプリケーションのデータに使用されるセマンティックタイプを追加、削除、または編集することができます。詳細は、ユーザーインターフェイスを使った、セマンティックタイプのライブラリーの追加を参照してください。

    Talend Studioでは、tDatasetInputtDatasetOutputtDataprepRunの各コンポーネントを使用することで、Talend Data Preparationの機能を活用できます。さまざまなデータベースからデータセットを作成してTalend Data Preparationにエクスポートしたり、データ統合ジョブまたはSparkジョブでプレパレーションを直接利用したりすることができます。

  • サーバーブロックには、Talend Administration Centerに接続されたTalend Data Preparationアプリケーションサーバーが含まれており、必要に応じてTalend Dictionary ServiceサーバーとStreams Runnerサーバーも含まれます。このブロックには、Talend Data PreparationTalend Dictionary Service間の内部メッセージング用に使用されるKafkaサーバーも含まれます。 Talend Identity and Access Managementサービスは、シングルサインオンを有効にするために使用します。

    Talend Administration Centerでは、管理者がライセンス、ユーザー、およびロールを管理できます。 事前定義済みのロールを1つ以上ユーザーに割り当てると、Talend Data Preparationでアクセスや操作を実行するための特定の権限がユーザーに付与されます。Talend Administration Centerからは、Talend Studioで設計されたジョブを実行したり、ライブデータセット機能を使ってTalend Data Preparationでデータセットを直接取得したりすることもできます。

    ビッグデータのコンテキストでは、クラスターからデータセットをインポートし、このフレームワーク上で直接プレパレーションを実行するために、必要に応じてStreams Runnerサービスを使って、Spark Job ServerとHadoopクラスターへのアクセスをトリガーします。

    Talend Data Preparationでデータを開いたときに、必要ならTalend Dictionary Serviceを使って、データの各カラムに適用されているセマンティックカテゴリーを追加、削除、または変更できます。

  • データセットブロックには、Talend Administration Centerと共に使用されるデータセット、およびMongoDBデータセットがあります。

    管理データベースは、ユーザーのアカウントと権限を管理するために使用します。監査データベースは、Talend Studioで実施されたジョブのさまざまな側面を評価するために使用し、モニタリングデータベースは、技術的プロセスとサービス呼び出しの実行を監視するために使用します。

    MongoDBデータベースは、すべてのデータセットとプレパレーション、およびアプリケーションのデータ検証に使うセマンティックタイプを保存するために使用します。コンピューターに直接保存されるものは何もありません。
  • 実行サーバーブロックには、Hadoopクラスター上で実行されるエクスポートの管理に使用するSpark Job Server、およびComponents Catalogがあります。

    Components Catalogサービスにより、各種データセットに保存されたデータをインポートしたり、Talend Data Preparationで直接リモートデータセットを作成したりすることができます。

  • Hadoopクラスターブロックでは、ビッグデータのコンテキストでTalend Data Preparationを使って、HDFSまたはJDBCからインポートされたデータに対するプレパレーションを処理できます。